爬虫
小太阳☀️
这个作者很懒,什么都没留下…
展开
-
爬取链家租房数据
使用requests+lxml结合爬取的链家租房信息数据,翻页我直接使用循环去访问的,链接翻页的改变就是相对应的'pg1'。主要使用xpath匹配了房源名称、房源大小、地点、价格等字段信息,获取各个字段之后连接了我的本地数据库,然后一条一条从插入数据库。数据库的连接得填好自己想要存进去的数据库账号。就这些了,有不懂的欢迎评论,下面附上代码:import requestsfro...原创 2018-08-30 14:21:59 · 867 阅读 · 0 评论 -
python使用execjs执行含有document、window等对象的js代码报错对象undefined
使用jsdom解决第一步 使用以下命令安装:npm i jsdom -g第二步 只需在对应js代码里最前面加上以下代码就能正常运行const jsdom = require("jsdom");const { JSDOM } = jsdom;const dom = new JSDOM(`<!DOCTYPE html><p>Hello world<...原创 2019-09-23 11:01:09 · 5431 阅读 · 2 评论 -
破解58同城租房字体加密
最近写了好几个类似的反爬网站:大众点评 css反爬解析、汽车之家 css自定义字体反爬解析、猫眼电影票房排行榜(博客还没写)话不多说,破解58同城租房数字加密开始例子网站:https://bj.58.com/chaoyang/chuzu/一、加密数字解析发现问题页面展示正常的数字在源码中是乱码,如下图:通过先前的做法,破解字体加密,一般是先找到字体文件,下载到本...原创 2019-05-14 13:28:01 · 3289 阅读 · 0 评论 -
大众点评 css反爬解析
转载自大众点评还不会爬?跟着我,我教你。谈谈自己跟着写这个的感想吧。关于如何使用requests来爬取大众点评的数据。主要分为以下2步:发现数字出现的规则,css里面的规则,这一步很重要,没有找出规则,无法进行下一步 编码解析css,获取评论数、人均价格、口味、服务、环境评分1.找到css根据class值 “djaka” 对应的两个像素值,前面的是控制用哪个数字,...原创 2019-04-12 14:43:24 · 1365 阅读 · 1 评论 -
汽车之家 css自定义字体反爬解析
本文主要是通过哦爬取汽车之家论坛一些用户热门精华帖子,介绍利用前端页面自定义字体的方式来实现反爬的技术手段,来实践破解它。自定义字体:@font-face是CSS3中的一个模块,主要是实现将自定义的Web字体嵌入到指定网页中去。使用了其中一个网址来进行分析:https://club.autohome.com.cn/bbs/thread/d1751c7bd0539de0/79229668-...原创 2019-04-15 18:12:49 · 1714 阅读 · 2 评论 -
准确爬取两个关键标签节点之间的内容
问题描述很开心,这是抓数据以来一直遇到的一个问题,虽然不能说是很完美,但是至少比每次用xpath中的position或者加各个判断来获取想要的数据为好。肯定都好奇是啥问题了问题描述:想要获取的数据在一个div中的各个p标签中,一段一段的,没有唯一id,就算有也只能获取一段话,其余的就不能准确获取了,上图展示: 解决思路正则匹配需要加标签的内容的首尾 用加个唯一id值得di...原创 2018-09-21 13:41:14 · 4914 阅读 · 0 评论 -
python爬取网易云音乐评论并制作词云
这几天一直在想我还没爬取过的网站,以及会遇到的难点。每天使用网易云听歌,想着选首喜欢的歌去爬爬它的评论,我是用《小宇》这首歌做实例的。爬虫写的多了,自然也知道在源码里面找不到的数据,基本上都是动态加载出来的,这个时候我一般会打开网页右击检查(我一般使用的都是Google浏览器),选中它的NetWork,上图(不知道为什么粘贴下来的图片这样别扭)。选中XHR(感觉一直用这个还不知道是啥意...原创 2018-09-06 10:18:49 · 4389 阅读 · 5 评论 -
用Scrapy爬取网站时总获取不到源代码的解决办法
运行scrapy crawl gupiao,报错如下:2017-11-06 16:28:19 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: gupiaospider)2017-11-06 16:28:19 [scrapy.utils.log] INFO: Overridden settings: {'BOT_NAME': '...原创 2017-11-06 16:35:21 · 5484 阅读 · 1 评论 -
使用Scrapy爬取股票数据
直接上代码了,代码里面有注释,大家可以参考参考: # -*- coding: utf-8 -*-import scrapyimport timeimport jsonimport osclass GupiaoSpider(scrapy.Spider): name = 'gupiao' start_urls = ['http://stock.10jqka.com...原创 2017-11-06 21:39:32 · 1595 阅读 · 0 评论 -
使用requests和Xpath抓取带标签的内容
今天抓取数据页面很多跳转,然后使用requests单独获取该链接抓取数据,但是需要的数据是要带标签的使用etree解析文本为HTML之后,连带用xpath匹配的数据都是Element类型需要将它转为需要的带标签的数据内容,如: data = requests.get(url, headers=headers)response = etree.HTML(data.tex...原创 2018-07-04 14:08:30 · 3398 阅读 · 0 评论 -
scrapy模拟Chrome有界面的浏览器下载谷歌搜索的图片
今天公司要求爬取图片,个人觉得下载一个一个点太麻烦,量也比较大很多想写代码的初衷都是为了偷偷懒,省省时间和精力刚开始爬因为需要的图片都是经过放大的图片,源码里面需要的图片链接都是存在于js里面(很多信息还是得看源码分析,不能只在页面检查,因为很多信息都是动态加载出来的),好了,话不多说,附上我写的代码:(有啥问题的可在下面评论,希望能帮到有需要的人)# -*- coding: utf...原创 2018-07-10 19:20:19 · 738 阅读 · 0 评论 -
chromedriver驱动下载
下载各个版本的chromedriver,包括linux系统、Mac系统和Windows系统下载地址一:http://chromedriver.storage.googleapis.com/index.html下载地址二:https://npm.taobao.org/mirrors/chromedriver/...原创 2019-09-24 16:25:24 · 350 阅读 · 0 评论