python
mao_mao37
这个作者很懒,什么都没留下…
展开
-
python小爬虫,爬取文章(知乎专栏)片段
class XSSpider(scrapy.Spider): name = 'xiaoshuo' allowed_domains = ['2mcn.com'] start_urls = ['https://www.2mcn.com/html/book/73323/73323986/49627483.html'] def parse(self, response): txt = "" i_title = response.xpath("//h.原创 2020-07-20 11:07:45 · 584 阅读 · 0 评论 -
Scrapy保存中文字符到json文件时编码设置
因为测试一个网站,将获取到的内容写入json文件,在使用scrapy crawl -o file.json时,对于中文,保存的是unicode编码字符,因为需要转换为utf-8中文编码转换命令:scrapy crawl -o file.json-s FEED_EXPORT_ENCODING=UTF-8每次写命令比较麻烦,可以在settings.py中添加配置:FEED_EXPROT_ENCODING='UTF-8'这样在命令行中就不需要添加编码参数...原创 2020-07-07 10:14:14 · 1103 阅读 · 3 评论 -
Python爬虫遇到法语é变成\u00e9
用Python爬虫过程中,尤其是爬取国外网站时候会发现出现一些\u00e9,\u00e8这种查看原网页发现是一些法文,如é,à,ù等其实都是不同编码包含内容不同的问题一般我们用Python存储数据到文件时候是先编码为其他的编码集,比如gbk,或者常用的utf-8在这儿我们需要的是它原始信息,所以需要数据原始信息,这儿就要提到unicode-escape编码集unicode-escape编码集是将unicode通过内存编码值直接存储,这正是我们所需要的所以只要对网页内容通过unicod转载 2020-06-09 16:36:13 · 881 阅读 · 0 评论 -
使用Requests+xpath实现简单的数据爬取
最近又重新爬虫,遇到一个之前没注意的问题,就是request返回对象的问题from lxml import etree currentAllInfo = [] headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0'} sourceHtml = requests.get(url, headers=headers)原创 2020-06-09 09:07:18 · 639 阅读 · 0 评论 -
scrapy命令介绍
全局命令:Dos下输入:scrapy -hscrapy [command] [options] [args]command:命令,bench:测试本地硬件性能,测试爬虫运行环境fench:下载给定的url地址genspider:在项目下创建爬虫类runspider:运行爬虫类settiongs:获取配置信息shell:临时交互模式,来获取待访问网址信息...原创 2019-08-04 17:51:55 · 239 阅读 · 0 评论 -
scapy爬虫-Url去重
dont_filter=True可以看到,当parse的第一个断点设置在第54行时能运行成功。接下来将断点设置在parse_news函数中。照理来说应该会正常输出item_1的内容,但是为什么没有办法正确输出呢?而且也没有报错啊!调试的时候,发现回调函数 parse_detail 没有被调用,这可能就是被过滤掉了,查看 scrapy 的输出日志 offsite/filte...转载 2019-05-13 10:38:30 · 463 阅读 · 0 评论 -
scrapy爬虫—获取script中的data数据
初涉scrapy,在项目中的爬虫需求中,遇到了需要获取html中的script标签中的data数据,样例网址:获取的方式有很多1.原生response.xpath()获取response.xpath("//body//script/text()")就可以拿到该script的标签内容,之后对字符串进行处理分析,转换为json之类的都可以2.使用正则表达式,直接获取类似title的...原创 2019-05-16 10:46:11 · 14690 阅读 · 2 评论 -
scrapy -selector
https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/selectors.htmlhttps://blog.csdn.net/sdulsj/article/details/52984550转载 2019-04-27 23:45:27 · 217 阅读 · 0 评论 -
调用import win32com.client出错的解决办法
在安装了win32com的对应版本之后,还是不能正常使用import win32com.client,在网上找了很多解决办法都没解决最后自己尝试在项目中注册模块,成功解决注意:是在项目的terminal下注册注册语句:python -m pip install pypiwin32...原创 2019-04-22 17:09:55 · 13068 阅读 · 1 评论 -
【转】python eval
eval(expression, globals=None, locals=None) --- 官方文档中的解释是,将字符串str当成有效的表达式来求值并返回计算结果。globals和locals参数是可选的,如果提供了globals参数,那么它必须是dictionary类型;如果提供了locals参数,那么它可以是任意的map对象。python是用命名空间来记录变量的轨迹的,命名空间...转载 2019-04-22 15:49:29 · 162 阅读 · 0 评论