Python
fareatm
这个作者很懒,什么都没留下…
展开
-
爬取网页中文出现乱码的解决方法
网页编码gb2312,爬取中文text出现乱码,解决方法:str1 = paper.css('a::text').extract_first()str1 = str1.encode("ISO 8859-1")print(str1.decode('gbk')) python 字符串string 开头r b u f 含义 str bytes 转换 format字符串开头r b...原创 2018-08-11 19:40:29 · 1293 阅读 · 0 评论 -
网络爬虫css选择器知识贴(一)
css选择器:#container 选择id为container的元素 .container 选择所有class包含container的元素 * 选择所有元素 div a 选取所有div下所有a元素 ul + p 选取ul后面的第一个p元素 ul ~p 选取与ul相邻的所有p元素 a:nth-child(2) 选取下面第二个标签,如果是a的话则选取,不是则不取 a:nth-chi...原创 2018-08-11 19:48:11 · 933 阅读 · 0 评论