- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 python爬虫过程中,遇到同类内容url格式不同的问题,导致程序运行过程出错。
解决办法:1.前期尽量收集到不同种类的url,针对不同URL格式分别处理2.由于数据两巨大,可能无法发现这些不同的url ,那么可以在关键步骤上,主要是要对url进行处理时,在可能出错的环节加上异常处理。把出错的url保存到单独的文件,以便后期的调试处理。针对这些出错而遗漏的链接重新爬取。...
2019-07-17 00:06:51 819
原创 python 字典json字符串中文乱码怎么办?
#这样就不会乱码了data=json.dumps(data,ensure_ascii=False)#这是因为中文以 unicode 编码了,而默认是以ASCII解析的,中文不在ASCII编码中,所以无法显示。请参考这里...
2019-07-15 17:05:18 2691
原创 scrapy高阶++++如何过滤重复字段
定义一个过滤重复的管道件就可以了:from scrapy.exceptions import DropItemclass DuplicatesPipeline(object): def __init__(self): self.ids_seen = set() def process_item(self, item, spider): ...
2019-07-08 12:32:52 342
原创 scrapy高阶技巧+++FilesPipeline和ImagesPipeline(文件下载)
https://blog.csdn.net/qq_43537354/article/details/88360636https://doc.scrapy.org/en/1.3/topics/media-pipeline.htmlFilesPipeline的工作流如下:1. 在spider中爬取要下载的文件链接,将其放置于item中的file_urls(注意这只是一个代名词就像数学中的...
2019-07-08 11:53:22 2324
原创 机器学习+++++一看就懂的梯度下降法 python实现
# encoding:utf-8 """function : f(x,y,z) = (x+y)z"""def fun(x,y,z): return (x+y)*z# first method 解析法def grad1(x,y,z): dx = z dy = z dz = (x+y) return (dx,dy,dz)# second ...
2019-07-06 15:04:17 353
原创 python ++++pywin32 Windows API函数大全(精心总结)
调用windows API的方式其实有两种,第一种是通过第三方模块pywin32安装:pip list ; 查看是否已经安装 pywin32 pip install pywin32 Windows API函数大全(精心总结) 跟多api参考这里...
2019-07-02 22:45:18 27733 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人