爬虫
dayday学习
学习刷题,天天向上
展开
-
基于selenium的网络语料获取
基于selenium的网络语料获取selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。优点就是可以帮我们避开一系列复杂的通信流程,例如在我们之前学习的requests模块,那么requests模块在模拟请求的时候是不是需要把素有的通信流程都分析完成后才能通过请求,然后返回响应。假如目标站点有一系列复杂的通信流程,例如的登...原创 2020-05-07 11:20:11 · 236 阅读 · 0 评论 -
打造代理ip池
打造代理ip池1.介绍2.分析西刺代理ip网站3.获取ip4. 验证代理ip可用性5.代码6. 结果1.介绍有时候需要爬取某个网站的大量信息时,可能由于爬的次数太多导致我们的ip被对方的服务器暂时屏蔽。2.分析西刺代理ip网站3.获取ipfrom bs4 import BeautifulSoupimport requestsfrom urllib import request,e...原创 2020-01-02 20:02:42 · 274 阅读 · 0 评论 -
爬取小说
爬取小说1.分析网址结构2.代码实现3.结果显示1.分析网址结构由上可知小说的网址。然后分析章节的地址。分析文本具体位置2.代码实现# 用于获取网页的htmlfrom urllib import request# 用于解析htmlfrom bs4 import BeautifulSoupimport re# 得到网页的htmldef getHtml(url): ...原创 2020-01-01 13:26:09 · 191 阅读 · 0 评论 -
scrapy的使用(一)
scrapy的使用1.下载scrapy2.创建爬虫项目工作原理1.下载scrapypip install scrapy 出问题然后在https://www.lfd.uci.edu/~gohlke/pythonlibs/这个网页找到你对应的python的版本和你的计算机配置例如 cp35 python3.5版本,amd64就是计算机64位。然后pip install 这个文件下载后的...原创 2019-03-19 16:08:10 · 631 阅读 · 1 评论 -
python多线程爬虫
python 多线程爬虫1.准备环境2.爬虫的大体步骤2.1请求网络数据2.2.解析数据2.3 保存数据3.多线程爬虫1.准备环境语言python3 以上,然后软件包,会用到requests, beautifulSoup 和lxml.2.爬虫的大体步骤1.请求网络数据2.解析数据3.保存数据2.1请求网络数据对请求的身份进行伪装。防止被拦截。你可以看你浏览网页时候的user-ag...原创 2019-03-18 16:08:20 · 420 阅读 · 1 评论 -
正则表达式学习
正则表达式学习11.原子2.元字符3.模式修正符4.正则表达式函数5.实例1.原子a.普通字符作为原子b.非打印字符作为原子c.通用字符作为原子\w 字母,数字,下划线\W 除 字母,数字,下划线\d 十进制数\D 除 十进制数\s 空白字符\S 除 空白字符d.原子表就是将原子组合。[twz]在其中选取一个.加一个^就是非。2.元字符就是正则表达式中具有...原创 2019-03-31 17:02:37 · 188 阅读 · 0 评论 -
简单的爬虫例子urllib
简单的爬虫例子1.爬取豆瓣出版社名称2.urllib 基础1.urlretrieve()2.urlcleanup()3.info()4.getcode()4.geturl()3.超时设置4.模拟http请求1.中文会出错可以调用urllib.request.quote(keyword)转码。2.get的使用3.post 使用4.浏览器的伪装5.新闻爬取的例子1.爬取豆瓣出版社名称import...原创 2019-04-01 15:32:16 · 445 阅读 · 0 评论 -
学习爬取糗事百科的实例
爬取糗事百科的实例1.获取网址,以及构造网址链接2.分析你要爬取内容的构造形式。3.爬取内容。爬取的步骤分为以下几个步骤:1.获取网址,以及构造网址链接从上边的图可以得知,爬取多页,只需要改变它的页面就行了。2.分析你要爬取内容的构造形式。分析原码可知,它所有的内容都在这个中我们就可以写正则表达式去匹配。3.爬取内容。最终的代码如下:...原创 2019-04-02 09:26:51 · 163 阅读 · 0 评论 -
Xpath 表达式学习及例子
学习scrapy的使用(二)1.Xpath 表达式1.Xpath 表达式效率高,但是功能没有正则表示式强大。一般选择正则表达式。不能解决就用正则表达式。xpath表达式:/ 逐层提取/html/head/title实例:text() 提取标签下的文本/html/head/title/text()//标签名** 提取所有**的标签//div//标签名[@数学=‘属性值‘] ...原创 2019-05-23 10:55:42 · 869 阅读 · 0 评论