- 博客(5)
- 收藏
- 关注
原创 Day7-模拟登录丁香园,爬取所有用户基本信息和回复内容
最后一天了,趁着周末把DataWhale爬虫7天训练最后的task做出来了。前几天的学习,从学习http,post和get两种请求方法开始,到学习简单urllib和requests请求一个网页进行简单爬虫,再到学习了正则,bs,xpath等来对数据进行提取,用selenium进行模拟163邮箱登录等,最后一天的任务算是对前六天学习的检验把。模拟登录丁香园,我们使用的还是selenium进行自...
2019-03-10 13:56:47 492
原创 反爬虫的解决利器-----构建自己的代理池
为什么要构建代理池?什么是ip?IP:互联网协议地址(英语:Internet Protocol Address,又译为网际协议地址),缩写为IP地址(英语:IP Address),是分配给用户上网使用的网际协议(英语:Internet Protocol, IP)的设备的数字标签。常见的IP地址分为IPv4与IPv6两大类,但是也有其他不常用的小分类。ip为什么会被封?大多数情况下是...
2019-03-09 20:09:21 328
原创 python爬虫入门之selenium的学习
selenium是什么?Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建回归测...
2019-03-06 01:07:38 213
原创 python爬虫之xpath的应用
xml xpath lxmlxml:可扩展标记语言-参考网址:http://www.w3school.com.cn/xml/index.aspxpath:一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性 进行遍历lxml: lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高实战...
2019-03-05 02:39:03 215
原创 python爬虫-----学习bs,爬取丁香园特定帖子的所有回复内容
beautifsoup----爬虫数据挖掘又一大利器– 安装:conda install beautifulsoup4 或者 pip install beautifulsoup4(这个4代表着bs的版本)这里我用了conda安装:– beautiful soup:BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库.官方文档:Beautiful...
2019-03-03 14:59:54 524 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人