爬虫
文章平均质量分 96
jerrism
混C币
展开
-
python读取包含非法转义符的json
文章目录数据清洗工具选择列文件去重转换csv文件中的特殊字符按id过滤文件的行分组聚合连接文件批量导出mysql表数据清洗工具若未特别注明,本工具集中所有程序的默认输出为直接打印,要输出到文件用> outfile选择列适用于Linux和Windows git bashusage: cut.py [-h] [-d DELIMITER] [-f FIELDS] [infile]取出文件的特定列positional arguments: infile 输入原创 2020-11-04 22:24:54 · 1395 阅读 · 0 评论 -
scrapy回调函数中使用异步请求
同步测试在scrapy中使用同步代码会阻塞所有的异步代码:class MySpider(Spider): """测试用脚本""" name = 'spider_test_aio' custom_settings = dict( LOG_LEVEL='DEBUG', ) def start_requests(self): for i in range(10, 0, -1): yield Request('ht原创 2020-08-14 20:14:33 · 2907 阅读 · 2 评论 -
selenium中使用新版edge
安装seleniumpip3 install selenium下载浏览器对应版本的driver,浏览器版本可在设置-关于 Microsoft Edge中找到,https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/将下载完的可执行文件放入环境变量,并改名为MicrosoftWebDriver.exe测试import timefrom selenium import webdriverdriver = web.原创 2020-07-28 09:42:55 · 3863 阅读 · 5 评论 -
用余弦相似度破解字体反爬
加密原理分析**字体反爬,即利用自定义的字体文件,改变字符编码到字形之间的映射。**使得浏览器上看似正常的页面,用爬虫获取的数据却是乱码或乱序的。1. 网页分析以猫眼的电影详情页为例,网页上显示的页面是:只关注用户评分项,在源码中显示的是<span class="stonefont">.</span><sp...原创 2020-04-25 19:26:26 · 716 阅读 · 0 评论 -
获取全球行政区划
在qq的安装目录下找到Tencent\QQIntl\I18N\2052\LocList.xml,按照xml格式存储,其中国内精确到区县,国外精确到市。若要将其转换成csv:from lxml import etreexml = etree.parse(r"C:\Users\hmy\Documents\行政区划\LocList.xml")CountryRegion = xml.xpath('...原创 2020-04-25 19:24:31 · 1229 阅读 · 0 评论 -
scrapy常见问题和技巧
爬虫启动时项目中的所有python脚本都会执行,因此不需要执行的代码要放在函数或类里。scrapyd-deploy安装完成后执行显示不存在:scrapyd-deploy在python的script目录下,需要新建scrapyd-deploy.bat并写入@echo offpython scrapyd-deploy路径 %*scrapyd部署错误:安装twisted==1...原创 2020-04-25 19:23:51 · 238 阅读 · 0 评论 -
js获取网页元素文本
若页面未引入jQuery,先导入:var importJs=document.createElement('script')importJs.setAttribute("type","text/javascript")importJs.setAttribute("src", 'https://ajax.microsoft.com/ajax/jquery/jquery-1.4.min.js')...原创 2020-04-25 19:21:44 · 4446 阅读 · 0 评论