python爬虫基础
Sfiaflys
这个作者很懒,什么都没留下…
展开
-
带着Cookies登录
1 用python发评论url:https://wordpress-edu-3autumn.localprod.oc.forchange.cn/import requestssv = { 'user-agengt': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}url = 'https://wordpress-e原创 2020-07-21 12:31:20 · 414 阅读 · 0 评论 -
前几日知识总结
如何选取爬取路线实例1 爬取知乎大v张佳玮的文章“标题”、“摘要”、“链接”,并存储到本地文件import requests,openpyxlfrom bs4 import BeautifulSoupurl='https://www.zhihu.com/people/zhang-jia-wei/posts/posts_by_votes?page='n=5sv={'user-agent':'Moziller/5.0'}list_excel=[]wb=openpyxl.Workbook()s原创 2020-07-19 23:31:32 · 167 阅读 · 0 评论 -
[python爬虫]把爬取的数据储存到表格里
CSV的读取和写入import csv#引用csv模块。csv_file = open('demo.csv','w',newline='',encoding='utf-8')#创建csv文件,我们要先调用open()函数,传入参数:文件名“demo.csv”、写入模式“w”、newline=''、encoding='utf-8'。open()函数:加newline=’ '参数的原因是,可以避免csv文件出现两倍的行距(就是能避免表格的行与行之间出现空白行)。加encoding=‘utf-8原创 2020-07-19 10:34:35 · 9010 阅读 · 0 评论 -
用network方法翻页爬取数据
1 爬取QQ音乐里林俊杰的所有歌曲信息import requestsurl = 'https://c.y.qq.com/soso/fcgi-bin/client_search_cp'sv2 = {'user-agent': 'Moziller/5.0'}n=20for i in range(n): sv = { 'ct': '24', 'qqmusic_ver': '1298', 'new_json': '1', 'remoteplace': 'txt.yq原创 2020-07-18 22:28:48 · 617 阅读 · 0 评论 -
python爬虫第三关:爬取菜谱网站/爬取豆瓣top250
1 爬取菜谱网站目标:爬取热门菜谱清单,内含:菜名、原材料、详细烹饪流程的URL。url:http://www.xiachufang.com/explore/import requestsfrom bs4 import BeautifulSoupurl = 'http://www.xiachufang.com/explore/'sv = {'user-agent': 'Moziller/5.0'}r = requests.get(url, headers=sv)r.encoding = 'u原创 2020-07-18 12:54:55 · 523 阅读 · 0 评论 -
BeautifulSoup的基本使用方法
find()与find_all()的区别首先,请看举例中括号里的class_,这里有一个下划线,是为了和python语法中的类 class区分,避免程序冲突。当然,除了用class属性去匹配,还可以使用其它属性,比如style属性等。其次,括号中的参数:标签和属性可以任选其一,也可以两个一起使用,这取决于我们要在网页中提取的内容。如果只用其中一个参数就可以准确定位的话,就只用一个参数检索。如果需要标签和属性同时满足的情况下才能准确定位到我们想找的内容,那就两个参数一起使用。Tag对象的三种常用原创 2020-07-17 22:40:55 · 1244 阅读 · 0 评论 -
Python网络爬虫Requests库基础入门
r.raise_for_status()的用法import requestsdef getHtmlText(url): try: r=requests.get(url,timeout=30) r.raise_for_status()#如果状态不是200,引发HTTPError异常 r.encoding=r.apparent_encoding return r.text except: return '产生异常原创 2020-07-15 15:37:40 · 322 阅读 · 1 评论 -
[python爬虫基础]初步认识network/XHR
Network使用方法Preserve log它的作用是“保留请求日志”。如果不点击这个,当发生页面跳转的时候,记录就会被清空。所以,我们在爬取一些会发生跳转的网页时,会点亮它。ALL查看全部XHR仅查看XHR,一种不借助刷新即可传输数据的对象DocDocument,第0个请求一般在这里。(第0个请求:浏览器的框架)Img仅查看图片Media仅查看媒体文件JS和CSS前端代码,负责发起请求和页面实现Front文字的字体原创 2020-07-18 18:33:22 · 1349 阅读 · 0 评论