爬虫
Leon_Kbl
说到做到 笔直向前
展开
-
爬虫匹不到数据的坑
初级爬虫小结网络爬虫的概念:(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。爬虫爬取数据得原则:模拟浏览器进行访问网页获取数据,只要你伪装成浏览器足够像,就可以达到防反爬的目的。正则 lxml bs4区别:正则表达式和Lxml的运行时间都比...原创 2019-07-23 16:55:20 · 954 阅读 · 0 评论 -
xpath通过兄弟节点取数据
通过兄弟节点去查询其他节点今天我们简单说一下借助兄弟节点去查询其他节点的内容:今天拿到一个要匹配如下箭头所指内容(标题、日期、阅读次数、标签):按照我的习惯我是先找它们共有的一个块区域:在匹配之前先简单聊一聊xpath:xpath匹配是按照树结构通过节点一层层的往下找。xpath语法XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。...原创 2019-07-22 20:04:25 · 2486 阅读 · 0 评论 -
爬取数据乱码简单处理
多线程爬取笑话集快期末考试了,老师说要考多线程,上次刚好写了多线程爬取糗百,这次练手就想换一换网址,然后就选择了爬取笑话集,但发现了问题,它打印出来的编码我不认识使用下面代码:res=requests.get(url=new_url,headers=self.headers) content=res.textprint(content)得到数据库的内容乱码了:...原创 2019-07-21 14:05:56 · 777 阅读 · 0 评论 -
django scrapy交互简单实例
多页爬取365租房任务:爬取下图红色内容并展示出来。 &nb...原创 2019-07-20 12:30:00 · 1444 阅读 · 0 评论 -
python多线程爬取糗百
分析多线程爬取糗百为了加快爬取网站的效率,我们将使用多线程来爬取任务,我们最简单爬取数据大致思路可以分为三步:1.爬取数据2.解析数据3.保存数据在使用多线程时,我们就变成了多个线程爬取数据,解析数据。这样我们需要借助队列,并且上锁,来避免线程之间的恶意竞争资源。那么我们可以将思路步骤分为:1.爬取数据写入队列2.队列读取数据3.解析数据写入队列4.队列读取数据5.保存数...原创 2019-07-14 09:36:43 · 297 阅读 · 0 评论 -
Python 爬虫:scrapy 没有crawl 命令
scrapy 爬虫框架启用命令注意事项1.cd 到你指定的文件夹下;2.scrapy startproject Spider(项目名字:自定义);3.cd Spider(cd到你创建的项目下);4.scrapy genspider example(爬虫.py的名字) example.com9(你要访问的域名,不要写http/https协议);5.scrapy crawl example(...原创 2019-07-13 20:20:52 · 8168 阅读 · 1 评论 -
入门爬虫之百度贴吧页面爬去
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...原创 2019-07-10 18:11:56 · 184 阅读 · 0 评论