python
萝卜hu
想将小菜变大菜
展开
-
使用request请求,报415,“error“:“Unsupported Media Type“
如下图,发送请求,直接报415,错误内容为服务器无法处理请求附带的媒体格式查看原始接口的request header,请求可接受的类型为application/json代码中应该使用json来传参,而data的使用是当header中填写application/x-www-form-urlencoded时(通常在表单的提交使用)解决方法:将data修改为json...原创 2021-09-17 22:23:05 · 1841 阅读 · 0 评论 -
python语言-实现半自动爬虫爬取小说《遮天》评论
半自动爬虫-新手 作业要求:百度贴吧中寻找一个自己喜欢的贴吧,将其中的一片热门帖子的每一层楼的发帖人、发帖内容和发帖时间抓取下来需要准备的是,能够理解正则表达式的运用,基础的python语法就可以很快搞定,python语言和大多数java、c只要些许的不同,间隔需把握好,工具下面采用sublime text3/IDEL。第一步:找到自己喜欢的贴吧的源元素,另存为.txt文件第二步:文件操...原创 2019-03-31 20:57:48 · 1078 阅读 · 0 评论 -
python语言 正则表达式 -小说网站爬虫开发
作业要求:网址:http://www.kanunu8.com/book3/6879从上述网址爬取《动物农场》所有章节的网址,再通过一个多线程爬虫将每一章的内容爬取下来。在本地创建一个“动物农场”文件夹,并将小说中的每一章分别保存到这个文件夹中。涉及的知识点如下:使用requests获取网页源代码。使用正则表达式获取内容。文件操作。爬虫原理就是模拟客服端Client向服务器Serve...原创 2019-03-31 22:01:43 · 2239 阅读 · 4 评论 -
python语言 Xpath - 票牛网演出爬虫
作业要求:票牛网http://www.piaoniu.com/cd-dramas/hottest目标内容:爬取演出信息,包括演出名称、详细网址、时间、地址、票价等内容任务要求:使用xpath完成,结果保存到csv文件中涉及知识点:requests获取网页源代码、xpath获取内容、python读写CSV文件先说说Xpath与上一次的正则表达式有何区别?通过上一次实验知道通过用正则表达式来...原创 2019-04-10 22:03:03 · 972 阅读 · 0 评论 -
python-selenium实现动态网页抓取
以前我们都是手动去获取的,这次说一下动态页面的爬取,可以通过AJAX请求和响应的解析实现,但JS动态渲染方式不止AJAX一种,还有那种不含AJAX的,这种可以使用模拟浏览器运行的方式。即做到可见即可查,这样不用再管JS用什么算法渲染页面了,也不用管AJAX接口到底有哪些参数。先说说浏览器模拟库1、selenium自动化测试工具,利用它可以驱动浏览器执行点击、下拉等操作,还可以获取当前页面的源代...原创 2019-04-26 19:09:43 · 568 阅读 · 0 评论 -
Python打印时 报错UnicodeEncodeError: 'gbk' codec can't encode character '\xXX' in position
网页本身是utf-8,但我们爬取网页时用的是Unicode,但使用print()打印时,里面的内容应该是GBK编码,那么就需要我们将需要打印的数据后加上 .encode(‘GBK’,‘ignore’).decode(‘GBk’)第一个GBK是忽略掉非法字符,然后再译码例如:print(需要打印的数据.encode(‘GBK’,‘ignore’).decode(‘GBK’))...原创 2019-05-04 22:20:03 · 2918 阅读 · 1 评论 -
使用cookie模拟登陆豆瓣影评
1、先登录自己的豆瓣号,按12会出现下面的开发者工具2、然后点击Network,再Ctrl+R,,可以看到有很多数据,比如下面这张图,包含有状态码,请求内型等,太多了,我们只需要找到含有我们自己用户的cookie值就好,豆瓣这个还是很好找,我的cooike就放在www.douban.com这个文件里,双击它,翻到Request eaders,就可以看到自己的cooike值,将它复制下来(每个网站不...原创 2019-05-04 22:48:55 · 2534 阅读 · 1 评论 -
使用selenium 爬取豆瓣《千与千寻》影评
这个是老师要求爬两万条数据的时候,顺便做的,我爬取的是《千与千寻》直接上代码吧from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysimport reimport csvimport pymysql...原创 2019-05-12 12:54:34 · 1940 阅读 · 0 评论 -
selenium爬取网易云《浮生》评论及用户信息并进行可视化处理
直接上内容吧,有什么问题可以问我哟第一部分,获取驻唱歌手的前几首歌曲,并爬取当中的评论信息from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysimport refrom selenium.webdri...原创 2019-07-25 19:25:47 · 434 阅读 · 0 评论