![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫练习
颓废的人工机器
个人学习记录专用号
展开
-
使用scrapy构建新的FormRequest爬取新发地菜价
import scrapyfrom scrapy.http import FormRequestclass CaijiaSpider(scrapy.Spider): name = 'caijia' #allowed_domains = ['http://www.xinfadi.com.cn/priceDetail.html'] def start_requests(self): self.url = 'http://www.xinfadi.com.cn/ge.原创 2021-08-27 11:26:02 · 230 阅读 · 0 评论 -
使用超级鹰登录12306网站
12306网站登录界面:https://kyfw.12306.cn/otn/resources/login.html代码如下from selenium.webdriver import Chromefrom selenium.webdriver.common.action_chains import ActionChainsfrom selenium.webdriver.chrome.options import Optionsfrom chaojiying import Chaoj.原创 2021-08-16 23:07:12 · 338 阅读 · 0 评论 -
验证码识别登录:使用超级鹰(验证码识别第三方包)识别超级鹰网站登录
验证码识别超级鹰网址:超级鹰验证码识别-专业的验证码云端识别服务,让验证码识别更快速、更准确、更强大 (chaojiying.com)注册并微信扫码即可获得1000积分,首先做如图操作生成ID然后下载其第三方开发api python文件点击下载即可,将下载好的python文件chaojiying.py放入你爬虫的代码路径文件夹里,打开并修改最后代码验证码类型超级鹰官方网站里有 ,根据需求对应,这里选择1902即4-6位英文数字关于导入超级鹰,需添加如下代码fro...原创 2021-08-16 22:04:44 · 4205 阅读 · 0 评论 -
使用selenium爬取艺恩网年度票房(8.16)
网站展示:爬取并保存至csv,代码如下from selenium.webdriver import Chromefrom selenium.webdriver.support.select import Selectimport timeimport csvweb = Chrome()web.get("https://www.endata.com.cn/BoxOffice/BO/Year/index.html")#找到下拉菜单sel_list = web.find_eleme.原创 2021-08-16 11:50:44 · 1055 阅读 · 3 评论 -
python爬取北京新发地菜市场菜价(8.12)
通过学习2021年最新Python爬虫教程+实战项目案例(最新录制)_哔哩哔哩_bilibili,动手实践。发现网站结构已经变更,不能像视频中那样的方式获取价格。可以看到点击页面,网址未发生变化因此看是否采用json传输数据,使用f12开发者调试,可以看出果然数据在json中进一步看Headers信息,可以注意到时post传输方式第四页data信息第五页data信息因此只要改变post中data里的current数据即可实现翻页使用xpath爬取代码如下impo...原创 2021-08-12 20:41:07 · 2945 阅读 · 11 评论