![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
基础知识&错误
Last_xuan1
这个作者很懒,什么都没留下…
展开
-
Python爬虫将数据存为csv格式时乱码的解决方法
1.用记事本的方式打开此csv文件2.点击另存为,编码设置为UTF-8,文件名后面加.csv如我之前爬取的网易云音乐的信息存进Exel然后就可以看到结果了原创 2019-01-31 23:59:31 · 9271 阅读 · 6 评论 -
Scrapy框架在写入MongoDB数据库时出现KeyError: 'xxx does not support field: _id'解决方法
在items.py里面加上_id = scrapy.Field()在主体里面提取信息时,尽量避免_id产生重复,可以配合random库一起使用这里是上一篇的一个例子# -*- coding: utf-8 -*-import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import...原创 2019-02-12 16:03:49 · 1863 阅读 · 1 评论 -
URL编码的一个坑
Url 的编码只能采用 ASCII 字符,不可使用 ASCII 以外的其他字符,如中文,不然的话,可能会应为客户端或者服务器端支持的编码不相同而造成问题。URL 对中文编码的方式是:得到中文的 UTF-8 编码的字符集,如 0xE4 0xB8 0xAD 0xE6 0x96 0x87,然后把 0x 用 % 替换就好了。对于某一些网站,他们对中文的URL编码是是跟随网页的编码的,比如他们网页的编码是 GBK 或者 GB2312,并不是常规的使用 UTF-8 编码,比如这个网站 https://www.52z原创 2020-07-12 11:38:14 · 393 阅读 · 0 评论 -
Scrapy框架爬取时,UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb1 in position解决方法
编码嘛,不是utf8就是gbk这里贴上代码import demjsonstart_urls = ['https://pic.sogou.com/pics/channel/getAllRecomPicByTag.jsp?category=壁纸&tag=全部&start=0&len=15'] def parse(self, response): ...原创 2019-02-14 20:16:26 · 11029 阅读 · 0 评论 -
selenium.common.exceptions.NoSuchElementException: Message: no such element的解决方法
要用seleniun 模拟搜索点击这个接口去掉要搜索的属性里面的空格即以后的部分browser.find_element_by_class_name(‘btn-search tb-bg’).click()或browser.find_element_by_class_name(‘btn-search.tb-bg’).click()改为browser.find_element_by...原创 2019-02-04 00:28:06 · 47411 阅读 · 5 评论 -
Python爬虫用select方法提取的标签的属性带有空格的解决方法
要用BeautifulSoup的select方法提取这个标签里面的内容的表示方法:把里面的空格的位置换成 . 就可以了content = soup.select(‘div.sp-lexicon-word-comment.clearfix’)...原创 2019-02-02 13:28:07 · 5373 阅读 · 4 评论 -
将二维列表写进Exel套路
import xlwtdef getExel(mylist): #表头的标题 header = ['','',''] book = xlwt.Workbook(encoding='utf-8') sheet = book.add_sheet('Sheet1') for k in range(len(header)): sheet.w...原创 2019-01-22 19:28:04 · 122 阅读 · 1 评论