自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 scrapy将不同页面元素整理到同一个Item中

scrapy爬虫,将不同页面元素整理到同一个Item中今天写scrapy过程时,碰到一个问题:需要将两个页面中的元素给整合到同一个 Item 中。解决方法参见 官方文档下面只是对官方文档做一下解释:Example:def parse_page1(self, response):return scrapy.Request(“http://www.example.com/some_page.html”,callback=self.parse_page2)def parse_page2(self,

2020-06-07 11:20:57 550

原创 csv文件用excel打开乱码

日常办公中,我们使用办公软件办公是比较平凡的,现在的办公软件也有好几种(微软的office、金山的WPS等)。而且小编觉得在所有的办公软件中是微软的office是比较有名的。这款软件不仅功能齐全,还可以兼容很多的文件格式。这些办公软件带给我们方便,同时日常使用过程中也会出现一些问题。小编今天就有这样一个问题,有朋友在使用office中的excel电子表格编辑工具来打开csv文件,但是他却发现在打开的时候文件总是会显示乱码的情况,可对于.csv文件格式,excel是支持的,这是为什么呢?就是这样一个问题大家有

2020-06-06 18:41:51 3031

原创 Python-替换或去除不能用于文件名的字符

今天在爬虫的时候,爬了二十条程序就莫名卡着不动了,还以为是被服务器禁止访问。还去加了user-agent池,随机获得user-agent构成headers,没想到居然是最后文件命名的时候出问题了。1、用于命名的字符串出现了非法的字符。通过正则表达式除去字符串中非法字符:import re def validateTitle(title): rstr = r"[\/\\\:\*\?\"\<\>\|]" # '/ \ : * ? " < > |' new_tit

2020-06-06 06:09:40 1401 1

原创 mongo常见问题

查询1、关于 pymongo.errors.CursorNotFound: Cursor not found 错误的解决方法:1、关于 pymongo.errors.CursorNotFound: Cursor not found 错误的解决方法:mongodb cursor id not valid error是一个超时错误。mongo的查询,使用cursur查询的时候,如果没有设置batch size这个参数,那么mongo默认会返回101条数据,等这101条数据读取完了,也就是想读取第102条的

2020-06-06 05:39:55 653

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除