bs4
dfy20020530
研究所 碼農 成迷於學習技術而忘記寫論文............
展开
-
爬虫day2
摘要 今天的任物是通过requests + bs4 & lxml 这三个库来完成爬取丁香园论坛的回复内容首先我们说一下数据 这里的数据包含了 标题 楼主提问的问题内容 以及各楼层的回复内容(title author_say recovery) 这三个内容 bs4 以及lxml 的文档较为玩整这里就不多做赘述,有需要可以去查看文档 bs4 lxml 笔者这里较为常用的爬虫库是bs4,lxml...原创 2019-04-08 02:05:49 · 186 阅读 · 0 评论 -
爬虫day4
实战大项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容。 丁香园论坛:http://www.dxy.cn/bbs/thread/626626#626626 。原创 2019-04-13 14:37:30 · 172 阅读 · 0 评论 -
爬虫day3
摘要 各位大家好今天要介绍的是Selenium自动化测试模块以及什么是代理池,首先简单的说一下Selenium,在我的理解中Selenium可以模拟使用者的动作去开启网页进行账号登陆的动作目前我的应用场景有自动论坛发文,自动登录特定网站,selenium刚开始是为了作测试而生的,但是后来被用来模拟浏览器登录以及高级爬虫例如爬取动态加载的内容,详细可以参考官方文档,再来我们说说什么是代理池,先说说我...原创 2019-04-10 09:57:08 · 180 阅读 · 0 评论