![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
dfy20020530
研究所 碼農 成迷於學習技術而忘記寫論文............
展开
-
爬蟲day1
摘要 今天来介绍一下通过requests + re(正则表达式) 完成的爬虫 首先我们先介绍一下 requests 这各库,这是一个很好用的爬虫库搭配BS4可以完成大部分的爬虫工作,当然如果遇到JS 渲染的时侯就要另外想办法了,可以参考Scrapy框架这是一个专门做爬虫的框架 ,我们接着说requests ,requests我个人常用的方法有两种一个事get 一个是post ,get-向指定的資源...原创 2019-04-06 11:59:19 · 205 阅读 · 0 评论 -
爬虫day2
摘要 今天的任物是通过requests + bs4 & lxml 这三个库来完成爬取丁香园论坛的回复内容首先我们说一下数据 这里的数据包含了 标题 楼主提问的问题内容 以及各楼层的回复内容(title author_say recovery) 这三个内容 bs4 以及lxml 的文档较为玩整这里就不多做赘述,有需要可以去查看文档 bs4 lxml 笔者这里较为常用的爬虫库是bs4,lxml...原创 2019-04-08 02:05:49 · 177 阅读 · 0 评论 -
爬虫day4
实战大项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容。 丁香园论坛:http://www.dxy.cn/bbs/thread/626626#626626 。原创 2019-04-13 14:37:30 · 164 阅读 · 0 评论 -
爬虫day3
摘要 各位大家好今天要介绍的是Selenium自动化测试模块以及什么是代理池,首先简单的说一下Selenium,在我的理解中Selenium可以模拟使用者的动作去开启网页进行账号登陆的动作目前我的应用场景有自动论坛发文,自动登录特定网站,selenium刚开始是为了作测试而生的,但是后来被用来模拟浏览器登录以及高级爬虫例如爬取动态加载的内容,详细可以参考官方文档,再来我们说说什么是代理池,先说说我...原创 2019-04-10 09:57:08 · 170 阅读 · 0 评论