![](https://img-blog.csdnimg.cn/20190927151117521.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python爬虫模块与架构
文章平均质量分 52
爬虫模块与架构
PYTED量化交易研究所
这个作者很懒,什么都没留下…
展开
-
Python处理:Window保存文件,文件名异常如何处理?去除文件名中的非法字符
1. Windows中文件名中的非法字符/ \ : * ? " < > |注:以上字符都是英文输出法的Mac和linux除了“/”几乎都没事2. 规范化文件名的函数定义import redef safeFilename(filename, replace=''): return re.sub(re.compile( '[/\\\:*?"<>|]') , replace, filename )原创 2021-08-09 18:13:20 · 1569 阅读 · 0 评论 -
爬虫:页面内容提取,HTML直接输出为Markdown格式,傻瓜式获取作者、发布等等信息
爬虫:页面内容提取,HTML直接输出为Markdown格式,傻瓜式获取作者、发布等等信息爬虫:页面内容提取,HTML直接输出为Markdown格式,傻瓜式获取作者、发布等等信息1. 提取HTML中的作者、发布日期与内容信息2. 把HTML转成Markdown的文本以下为输出结果————————————【selenium】无界面浏览器使用代理IP1. 代理IP的选择2. 代码实现设置代理爬虫:页面内容提取,HTML直接输出为Markdown格式,傻瓜式获取作者、发布等等信息1. 提取HTML中的作者、发布原创 2021-08-09 17:23:58 · 1881 阅读 · 0 评论 -
XPath、Json、Jsonpath
一 XPath1.0样例: <?xml version="1.0" encoding="ISO-8859-1"?> <bookstore> <book> <title lang="eng">Harry Potter</title> <price>29.99</price> </book> <book> <title...原创 2020-07-21 22:50:04 · 928 阅读 · 0 评论 -
BeautifulSoup使用
一实例htmlbs4.html <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>bs4_text</title> </head> <body> <div id = "id1" name = "div1" class = "...原创 2020-07-21 22:47:15 · 711 阅读 · 0 评论 -
[selenium]被识别如何解决?爬虫上线的selenium如何配置
Selenium被监测出来一般是在JS代码里判断,加上execute_cdp_cmd后面的这句话就好了from selenium import webdriver# 实例化driverdriver = webdriver.Chrome( executable_path='C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe',)# 防止被监测driver.execute_cdp_cmd("Page.addSc原创 2020-06-08 10:22:48 · 5529 阅读 · 5 评论 -
[爬虫]Charles安装,配置HTTPS抓包,配置安卓App代理
1. Charles下载网址:https://www.charlesproxy.com/download/2. Charles PC证书配置3. Https代理原创 2020-06-01 16:15:31 · 1045 阅读 · 0 评论 -
【selenium】无界面浏览器使用代理IP
【selinum】无界面浏览器使用代理IP1. 代理IP的选择2. 代码实现1. 代理IP的选择无界面浏览器使用的代理IP相对于urllib,requests,scrapy使用的代理要更严格原因在于:无界面浏览器更换代理IP没有普通模块更换那么方便,所以代理IP的生命周期尽可能要长些无界面浏览器会加载更多的静态资源,对代理IP的并发量有压力,所以应该选择支持并发量高的代理所以:SO...原创 2019-11-21 17:24:21 · 13437 阅读 · 0 评论 -
【爬虫】编码或解码(decode,encode)报异常的处理方式
【爬虫】编码或解码(decode,encode)报异常的处理方式1 经常出现的问题2 解决方法2.1 网页返回的源码decode失败2.2 selinum取page_source出现异常3 估测字节编码3.1 安装chardet3.2 使用案例1 经常出现的问题网页中的编码明明写着charset=‘utf-8’,urllib.request.urlopen(【url】).read().d...原创 2019-11-21 15:11:59 · 14388 阅读 · 0 评论 -
【selenium】selenium+chrome+chromedriver部署
【selinum】selinum+chrome+chromedriver部署1. 无界面的使用引言1.1 优势:1.2 劣势:1.3 个人对于无界面的态度:2 Windows上部署无界面2.1 安装selinum2.2 安装chrome2.3 安装chromedirver2.4 查看自己chrome的版本2.4.2 下载对应版本的chromedriver2.4.3 把chromedriver放置在...原创 2019-11-21 14:31:01 · 15179 阅读 · 2 评论