#python3网络爬虫
去追风,去看海
这个作者很懒,什么都没留下…
展开
-
request 添加 Query String Parameters (Payload)
post 携带body payload参数原创 2024-02-05 14:36:29 · 427 阅读 · 0 评论 -
禁止谷歌浏览器 Google Chrome 自动更新
禁用Google Chrome自动更新原创 2024-01-09 18:22:14 · 3461 阅读 · 0 评论 -
爬虫数据特殊符号处理(记录+持续补充)
python 爬虫 杂质字符处理笔记原创 2024-01-08 15:45:06 · 982 阅读 · 0 评论 -
Selenium安装WebDriver Chrome驱动(含 116/117/118/119/120/)
Selenium安装WebDriver Chrome驱动(含 116/117/118/119/120/)原创 2023-11-02 11:32:42 · 10530 阅读 · 12 评论 -
Scrapy 爬虫初体验
下载安装:conda install -c scrapinghub scrapy在空白文件夹下初始化创建项目文件夹scrapy startproject myscrapy格式:scrapy startproject 项目文件夹名称初始化项目结构:myscrapy\ scrapy.cfg # 配置文件 myscrapy\ # 项目的Python模块,代码导入入口 __init.py__原创 2021-02-19 15:35:36 · 119 阅读 · 0 评论 -
再次尝试爬取LOL英雄数据--02--Beautiful Soup版
第一次使用Xpath失败(放弃)了哈哈:https://blog.csdn.net/weixin_40959890/article/details/109470147今天试试Beautiful Soup能不能行,不行就再试一下pyquery,哼!金克斯又来了:http://lol.kuai8.com/hero/3.html直接上代码:import requestsfrom bs4 import BeautifulSoup#金克斯介绍网址url = 'http://lol.kuai8.原创 2020-12-07 21:03:36 · 132 阅读 · 0 评论 -
Beautiful Soup--03 方法选择器
find_all()find_all,顾名思义,就是查询所有符合条件的元素。给它传入一些属性或文本,就可以得到符合条件的元素。find_all(name,attrs,recursive,text,**kwargs)(1)name:我们可以根据节点名来查询元素,示例如下:html='''<div class="panel"> <div class="panel-heading"> <h4>Hello</h4>原创 2020-12-07 21:00:54 · 138 阅读 · 0 评论 -
Beautiful Soup--04 CSS选择器
使用CSS选择器时,只需调用select()方法,传入相应的CSS选择器即可,示例如下:html='''<div class="panel"> <div class="panel-heading"> <h4>Hello</h4> </div> <div class="panel-body"> <ul class="list" id="list-1" name='ele原创 2020-11-13 10:51:09 · 227 阅读 · 0 评论 -
Beautiful Soup--03 提取内容
方法选择器find_all()find_all,顾名思义,就是查询所有符合条件的元素。给它传入一些属性或文本,就可以得到符合条件的元素。find_all(name,attrs,recursive,text,**kwargs)(1)name:我们可以根据节点名来查询元素,示例如下:html='''<div class="panel"> <div class="panel-heading"> <h4>Hello</h4&原创 2020-11-13 09:50:51 · 1789 阅读 · 0 评论 -
Beautiful Soup--02 节点
关联选择在做选择的时候,有时候不能做到一步就选到想要的节点元素,需要先选中某一个节点元素,然后以它为基准再选择它的子节点、父节点、兄弟节点等,这里就来介绍这些节点元素。(1)子节点和子孙节点html = """<html> <head> <title>The Dormouse's story</title> </head> <body> <p class="st原创 2020-11-09 10:34:57 · 252 阅读 · 0 评论 -
Beautiful Soup--01节点选择器
Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码,不需要考虑编码问题。Beautiful Soup安装:https://blog.csdn.net/weixin_40959890/article/details/109565842节点选择器直接调用节点的名称就可以选择节点元素,再调用string属性就可以得到节点内的文本了,这种选择方式速度非常快。如果单个节点结构层次非常清晰,可以选用这种方式来解析。html = """<html&g原创 2020-11-09 09:48:07 · 232 阅读 · 0 评论 -
Beautiful Soup安装(python3 windows10)
英文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.htmlPyPI:https://pypi.org/search/?q=beautifulsoup4pip安装:pip install beautifulsoup4wheel安装(在pypi下载wheel文件,然后pip安装wheel原创 2020-11-08 22:12:45 · 282 阅读 · 0 评论 -
尝试爬取LOL英雄技能属性--01
首先我们找到一个LOL英雄的全部展示的页面:http://lol.kuai8.com/hero/恕瑞玛,your king has return ! hahhah金克丝长得不错,点击一下http://lol.kuai8.com/hero/3.html摁一下键盘F12出现页面源码:点击一下左上角的框住的这个按钮,然后在左边显示页面选择目标右边就会自动定位相应的源码比如我们在左边点击金克丝的名字,右边就自动定位到了相应的源码经查看该网页请求方式为get然后我们首先获取该.原创 2020-11-08 21:51:46 · 1002 阅读 · 0 评论 -
基本库的使用--urllib--分析Robots协议
利用urllib的robotparser模块,可以实现网站Robot协议的分析。 Robots协议 Robots协议也称为爬虫协议、机器人协议,它的全名叫网络爬虫排除标准(Robots Exclusion Protocol),用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取。它通常是一个叫作robots.txt的文件,一般放在网站的根目录下。爬虫访问一个站点时,先检查robots.txt文件,然后根据其中定义的范围来爬取,如果没有这个文件则可以爬取整个站点。样例:User-agen原创 2020-11-02 21:58:26 · 388 阅读 · 2 评论 -
基本库的使用--urllib--解析链接
urllib库还提供了parse模块,它定义了处理URL的标准接口,例如实现URL各部分的抽取、合并以及链接转换。它支持如下协议的URL处理:file、ftp、gopher、hdl、http、https、imap、mailto、mms、news、nntp、prospero、rsync、rtsp、rtspu、sftp、sip、sips、snews、svn、svn+ssh、telnet和wais。 urlparse() 该方法可以实现URL的识别和分段:from urllib import re原创 2020-10-31 16:10:19 · 321 阅读 · 0 评论 -
基本库的使用--urllib--异常处理
URLErrorurllib的error模块,它继承自OSError类,是error异常模块的基类,由request模块产生的异常可以通过这个类来处理。他有一个属性reason,即返回错误的原因。from urllib import request,errortry: response = request.urlopen('https://blog.csdn.net/weixin_40959890/article/details/109282970')except error.URLE原创 2020-10-29 09:27:04 · 212 阅读 · 0 评论 -
基本库的使用--urllib-发送请求03--高级用法
Handler--处理器有专门处理登陆验证的,有专门处理Cookies的,有专门处理设置的。urlli.request模块里的BaseHandler类是所有其他Handler的父类:HTTPDefaultErrorHandler:用于处理HTTP响应错误,错误都会抛出HTTPError类型的异常 HTTPRedirectHandler:处理重定向 HTTPCookiesProcessor:用于处理Cookies ProxyHandler:用于设置代理,默认代理为空 HTTPPasswor原创 2020-10-27 17:00:15 · 163 阅读 · 0 评论 -
基本库的使用--urllib-发送请求02--request
import urllib.requestrequest = urllib.request.Request('https://python.org')response = urllib.request.urlopen(request)print(response.read().decode('utf-8'))依然用urlopen()方法发送请求,参数不再是URl而是request对象。request对象构造:class urllib.request.Request(url,data=No.原创 2020-10-25 23:04:49 · 140 阅读 · 0 评论 -
常见的前后端鉴权方式
Session-Cookie Token 验证(包括 JWT,SSO) OAuth2.0(开放授权) 常见的加密算法 哈希算法 (Hash Algorithm) 又称散列算法、散列函数、哈希函数,是一种从任何一种数据中创建小的数字 “指纹” 的方法。哈希算法将数据重新打乱混合,重新创建一个哈希值。 哈希算法主要用来保障数据真实性 (即完整性),即发信人将原始消息和哈希值一起发送,收信人通过相同的哈希函数来校验原始数据是否真实。 哈希算法通常有以下几个..原创 2020-10-25 12:09:33 · 503 阅读 · 1 评论 -
Cookie、Session、Token、JWT
什么是认证(Authentication) 通俗地讲就是验证当前用户的身份 互联网中的认证: 用户名密码登录 邮箱发送登录链接 手机号接收验证码 只要你能收到邮箱 / 验证码,就默认你是账号的主人 什么是授权(Authorization) 用户授予第三方应用访问该用户某些资源的权限 你在安装手机应用的时候,APP 会询问是否允许授予权限(访问相册、地理位置等权限) 你在访问微信小程序时,当登录原创 2020-10-25 11:36:53 · 367 阅读 · 0 评论 -
基本库的使用--urllib-发送请求01--urlopen()
urllib.request模块提供了最基本的构造HTTP请求方法,利用 它可以模拟浏览器的一个请求发起过程 ,同时它还带有处理授权验证(authentication)、重定向(redirection)、浏览器Cookies以及其他内容。案例:Python官网爬取:import urllib.requestrespose = urllib.request.urlopen('https://www.python.org/')print(respose.read().decode('utf-8'.原创 2020-10-24 18:07:41 · 445 阅读 · 0 评论 -
基本库的使用--urllib
urllib库是python内置的HTTP请求库,不需要额外安装。request:它是最基本的HTTP请求模块,可以用来模拟发送请求。就像浏览器里输入网址然后回车一样,只需要给库方法传入URL以及额外的参数,就可以模拟实现这个过程了。 error:异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行重试或者异常处理保证这个程序不会意外终止。 parse:一个工具模块,提供了许多URL处理方法,比如拆分、解析、合并等。 robotparser:主要用来识别网站的robots.txt文件,然原创 2020-10-23 15:10:30 · 104 阅读 · 0 评论 -
获取爬虫需要的浏览器headers--(猫眼电影首页为例)
猫眼电影地址:https://maoyan.com/board/4 按键盘 F12或者右键检查然后出现 第二张图 点击网络(Network) 然后看url(网址),/后面是4(servlet地址),所以我们点击4那个文件 然后就出现了http请求相关的信息,我们需要的是headers中的User-Agent,它在request(请求)中,每个人因为用的浏览器不同,电脑硬件也不同,所以复制别人的会出错!然后我们就找到自己的headers中的User-Agent了,开心 http相关内容补充:http原创 2020-10-20 11:13:12 · 1073 阅读 · 0 评论 -
Selenium的安装
Selenium是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作。对于一些JavaScript渲染的页面来说,这种抓取方式非常有效。安装:pip install selenium成功:...原创 2020-10-19 10:58:21 · 117 阅读 · 0 评论 -
请求库的安装--requests
requests是第三方库,python不会自带,需要手动安装相关链接:Github :https://github.com/psf/requests或者https://requests.readthedocs.io/en/master/PyPI:https://pypi.org/project/requests/官方文档:https://requests.readthedocs.io/en/master/中文文档:https://requests.readthedocs.io/...原创 2020-10-19 10:41:24 · 295 阅读 · 0 评论 -
Python3 下载相关
官网:https://www.python.org/下载地址:https://www.python.org/downloads/第三方库:https://pypi.org/官方文档:https://docs.python.org/3.8/中文文档:https://docs.python.org/zh-cn/3.7/Awesome Python :https://awesome-python.com/Awesome Python 中文:https://github.co..原创 2020-10-15 16:33:37 · 108 阅读 · 0 评论 -
Python3 Windows下安装(Anaconda3)
anaconda 安装 ,提供Python 科学计算环境,自带Python及常用的库,配置环境方式简便(常用) 下载安装包安装,标准方式Anaconda安装下载地址:https://anaconda.en.softonic.com/ 或者链接:https://pan.baidu.com/s/1IykITGA4ggSNH57ioe50nQ 提取码:gg6d需要linux版本的可以留言:双击运行:next:看需求,自己用就选第一个:切换安装路径:...原创 2020-10-15 17:06:48 · 330 阅读 · 0 评论