python爬虫笔记
文章平均质量分 52
GAO_mm
这个作者很懒,什么都没留下…
展开
-
python爬虫大众点评店铺信息(字体加密)
python爬虫大众点评店铺信息(字体加密)1.观察网站发现部分字体加密2.查看请求的字体文件发现请求到了两个字体文件,把他下载打开3.这就是对应该网页每个字体的unicode,发现两个字体文件同一个字符对应的编码不一样,所以都要用上4.观察网页源代码有很多不认识的字符,但通过比较这些字符的后四位,发现刚好和字体文件对得上,接下来就可以开干了5.(1)将字体文件里的字符搞成列表character = list( '1234567890店中美家馆小车大市公酒行国品原创 2021-02-25 17:43:57 · 1174 阅读 · 2 评论 -
python爬虫基础爬取猫眼电影
爬取猫眼电影排行榜第一页import requestsfrom requests.exceptions import RequestExceptionfrom sqlalchemy import create_enginefrom lxml import etreeimport pandas as pdimport numpy as npurl = 'https://maoyan.com/board/4'try: headers={'User-Agent': 'Mozilla/5.原创 2020-11-27 22:41:37 · 586 阅读 · 0 评论 -
python爬虫基础简单知识笔记一
日期:2020-11-25笔记1.判断网页是否允许爬虫大众点评网为例from urllib.robotparser import RobotFileParserrp=RobotFileParser()rp.set_url('http://www.dianping.com/')rp.read()print(rp.can_fetch('*','http://www.dianping.com/'))2.抓取网站cookie百度为例import http.cookiejar,urllib.re原创 2020-11-25 22:56:25 · 222 阅读 · 0 评论