爬虫
安吉尼尔
永远有疑问的代码发烧友
展开
-
爬取网页中文乱码的问题
基本知识计算机只能处理数字,所以将一个数字对应一个符号,所以不同的数字对应不同符号的方式有不同为不同编码方式。ASCII码 :英文字符和二进制数字之间的关系。一个符号为一个字节(byte),一个字节是8位(bit),所以总体共可以组合为2的8次方也就是256种状态。对于英文字符是足够表示了,然而对于汉字和其他国家256个符号时不够的。gb2312 : 中文字符和二进制数字之间的对应关系。...原创 2018-10-17 15:53:33 · 3110 阅读 · 0 评论 -
使用selenium爬取餐厅信息
使用selenium爬取餐厅信息一 工具及平台介绍二 代码主要部分解析1.使用的库:2.根据url获取到网页的函数3.解析获取网页的内容并存到csv文件中三 网页完整代码结果一 工具及平台介绍使用python语言爬取使用BeautifulSoup解析爬取餐厅信息——大众点评某个地区的餐厅列表导入到CSV文件夹下使用谷歌浏览器二 代码主要部分解析1.使用的库:from sele...原创 2018-10-21 10:39:22 · 448 阅读 · 0 评论