自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (1)
  • 收藏
  • 关注

原创 python爬虫过程中,遇到同类内容url格式不同的问题,导致程序运行过程出错。

解决办法:1.前期尽量收集到不同种类的url,针对不同URL格式分别处理2.由于数据两巨大,可能无法发现这些不同的url ,那么可以在关键步骤上,主要是要对url进行处理时,在可能出错的环节加上异常处理。把出错的url保存到单独的文件,以便后期的调试处理。针对这些出错而遗漏的链接重新爬取。...

2019-07-17 00:06:51 819

原创 python 字典json字符串中文乱码怎么办?

#这样就不会乱码了data=json.dumps(data,ensure_ascii=False)#这是因为中文以 unicode 编码了,而默认是以ASCII解析的,中文不在ASCII编码中,所以无法显示。请参考这里...

2019-07-15 17:05:18 2691

原创 scrapy高阶++++如何过滤重复字段

定义一个过滤重复的管道件就可以了:from scrapy.exceptions import DropItemclass DuplicatesPipeline(object): def __init__(self): self.ids_seen = set() def process_item(self, item, spider): ...

2019-07-08 12:32:52 342

原创 scrapy高阶技巧+++FilesPipeline和ImagesPipeline(文件下载)

https://blog.csdn.net/qq_43537354/article/details/88360636https://doc.scrapy.org/en/1.3/topics/media-pipeline.htmlFilesPipeline的工作流如下:1. 在spider中爬取要下载的文件链接,将其放置于item中的file_urls(注意这只是一个代名词就像数学中的...

2019-07-08 11:53:22 2324

原创 机器学习+++++一看就懂的梯度下降法 python实现

# encoding:utf-8 """function : f(x,y,z) = (x+y)z"""def fun(x,y,z): return (x+y)*z# first method 解析法def grad1(x,y,z): dx = z dy = z dz = (x+y) return (dx,dy,dz)# second ...

2019-07-06 15:04:17 353

原创 python ++++pywin32 Windows API函数大全(精心总结)

调用windows API的方式其实有两种,第一种是通过第三方模块pywin32安装:pip list ; 查看是否已经安装 pywin32 pip install pywin32 Windows API函数大全(精心总结) 跟多api参考这里...

2019-07-02 22:45:18 27733 1

对称性在第一型曲线积分中的应用.pdf

没有更多的描述

2019-12-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除