python爬虫
文章平均质量分 93
爬虫的简单案例,边学习,边实践。
萌萌哒的瓤瓤
公众号:瓤瓤
坚持分享技术好文章
展开
-
10分钟让你学会百度指数跑分图
百度指数可视化原创 2022-06-15 11:40:23 · 1083 阅读 · 1 评论 -
用python来帮你表白,马赛克拼贴照片制作
目录1.前言2.重点原理3.实现步骤3.1修改图片大小3.2计算图片的直方图3.3比较直方图差异,同时替换3.4融合图片4.效果演示1.前言其实这篇文章严格意义上来说真不能说是原创,只能说是二次加工,但是我还是贴了原创的标志。狗头保命一下。主要思想来源于这篇老哥的文章:https://zhuanlan.zhihu.com/p/168667043有兴趣的小伙伴可以去看看。其实之前我在b站上就曾经看到过这样一个软件:顺便贴出软件的下载地址:https://xttx.lanzous.com/id6eu原创 2020-08-27 09:41:55 · 1391 阅读 · 3 评论 -
听说国漫最近崛起了,那我们就来爬几部国漫看看(动态加载,反爬)
长按点赞,等你来干!!!目录1.前言2.反爬过程2.1基本思路2.2爬取章节链接2.3爬取漫画链接2.3.1无法查看源码2.3.2动态加载2.3.3漫画乱序2.3.4下载漫画报4032.4下载图片3.效果演示4.源码1.前言说实话这次的爬虫可能是目前我遇到的最难的一个爬虫,主要之前爬取的都是一些静态资源的网站,这次的网站虽然 反爬机制 虽然也只是低层次的,但是对于新手的我来说也算是比较难的了。反爬的主要思路以及解决办法主要是来源于这位老哥的博客:https://mp.weixin.qq.com/s/w原创 2020-08-25 21:02:12 · 625 阅读 · 0 评论 -
python爬虫--看看虎牙女主播中谁最“顶”
目录爬虫百度api接口介绍效果演示爬虫网页链接:https://www.huya.com/g/4079这里的主要步骤其实还是和我们之前分析的一样,如下图所示:这里再简单带大家看一下就行,重点是我们接下来的模块。既然网页结构我们已经分析完了,那么我还还用之前的xpath来爬取我们所需要的资源。# 获取所有的主播信息def getDatas(html): datalist=[] parse=parsel.Selector(html) lis=parse.xpath('/原创 2020-08-24 09:33:14 · 7226 阅读 · 26 评论 -
python爬虫--不限平台歌曲下载(收费也可)
养成习惯,先赞后看!!!!目录1.起因2.具体实现3.效果演示1.起因不知道大家的童年听得都是谁的歌,反正博主自己本身就是听得周杰伦,林俊杰,许嵩,汪苏泷的歌,但是差不多去年吧,具体我也不清楚了,周杰伦的所有歌曲都是需要vip才能听。这还不是关键大不了就充钱呗,最可恶的是博主自己本身已经习惯用 “网抑云” 了,但是偏偏就 “网抑云” 下架了几乎胖伦的所有歌曲。这尼玛能忍,让我给QQ音乐充钱??做梦于是自己就尝试着看看能不能尝试通过爬虫把胖伦的歌下载下来。但是奈何博主自身的水平有限。如果直接通原创 2020-08-29 20:51:06 · 10311 阅读 · 13 评论 -
爬取51job出现can only concatenate str (not “NoneType“) to str
目录1.bug解释2.解决方案2.1添加try/except进行包裹2.2添加if/else条件判断2.3添加时直接进行类型转换3.修改完后老哥的代码1.bug解释一个老哥在爬取51job的信息,但是中途遇到了这个bug:其实这个bug一眼看出来就是没有一个值可以让你来进行转换成字符串。说白了就是有一个值可能为空,但是看出来没有用,毕竟他这里面包含了6个参数,不确定到底是哪一个参数。这时候我们就只需要打断点或者是一步一步打印变量就行了,这里我选择的是将老哥的方法进行改写,他选择的是直接将所有的变量原创 2020-08-15 15:21:58 · 8427 阅读 · 0 评论 -
python爬虫将数据写入csv文件乱码
出现乱码根本原因就是编码方式不对,但是博主自己尝试了三种编码方式终于找到了最合适的。目录UTF-8GBKUTF-8-sig最合适UTF-8这种编码方式,如果是在编译器里面打开是不会出现乱码的,但是单独打开该文件是会乱码的,通过这下面这两张图大家就知道了。pycharm中打开: 正常直接打开该文件: 乱码GBKpycharm中打开: 乱码直接打开该文件: 正常UTF-8-sig最合适pycharm中打开: 正常直接打开该文件: 正常...原创 2020-08-15 10:45:18 · 1562 阅读 · 0 评论 -
python爬取胡歌相关视频弹幕,分析并制作词云
目录分析网页爬虫+jieba分词+制作词云成品展示分析网页爬虫+jieba分词+制作词云成品展示原创 2020-08-14 17:29:09 · 845 阅读 · 0 评论 -
python相对路径文件无法读取,更改工作路径
养成习惯,先赞后看!!!这是最坑的地方,一般很难想到这个。就是先取看看你当前的工作路径,否则你怎么写相路径都是没用的。当我想去访问另外一个层级的文件时,可以看到因为他将路径定义到了pachong这个路径下,所以他是怎么也查不到当前我要的文件的。将工作路径修改成如下这样文件就能正常读取了。如果觉得有帮助的话,可以关注博主的b站号,新人up,需要你的支持。...原创 2020-08-14 11:03:09 · 2320 阅读 · 0 评论 -
python爬虫--自动下载cosplay小姐姐图片(xpath使用自定义创建文件路径)
养成习惯,先赞后看!!目录1.xpath使用2.遇到的 bug以及解决措施2.1bug2.2最终的解决方案3.效果展示4. 源码1.xpath使用使用之前,传统艺能就是先导入该模块parsel。之前我们匹配我们想要的内容比如链接,文字这些内容我们是不是都是通过正则表达式来爬取的不知道大家看完之后是不是觉得正则表达式好难,不知道你们怎么觉得,反正博主自己觉得好难。于是博主就发现了一个新的模块xpath,自己用完之后发现,卧槽!!!!!!这样爬虫也太简单了吧其实大家根据xpath这个名字...原创 2020-08-13 12:02:00 · 1126 阅读 · 0 评论 -
要不是真的喜欢学技术,谁会来爬小姐姐啊。
养成习惯,先赞后看!!!不用于任何商业价值,只是自己娱乐。否则 爬虫爬的好,牢饭吃到饱。这是我们这次爬取的网址:https://www.vmgirls.com/爬取并下载唯美女生1.准备工作2.分析网页+实际操作2.1分析页面12.2分析页面22.3分析首页2.4整合代码,准备起飞3.效果展示1.准备工作这次我们主要运用四个模块分别是BeautifulSoup:主要用于我们来分析网页信息requests:主要是用于我们来请求网页re:正则表达式,帮组我们来匹配实际需要的信息os:...原创 2020-08-12 15:42:02 · 12129 阅读 · 96 评论 -
真特么激动第一个爬虫----爬取豆瓣电影top250
之前一直对爬虫有兴趣,但是一直没有真正静下心来去好好学习过,这几天跟着b站上的一个教程做了自己人生中第一个爬虫小程序,还是很有成就感的。原创 2020-08-01 14:24:37 · 5072 阅读 · 11 评论 -
python爬虫数据无法插入到数据库中
首先先贴上两张错误代码其实这两处问题的重点都是数据类型转换出现错误,都是无法将list类型的数据转换成str。第一处的解决方法先将list类型的数据强制转换成str,再在他的两侧添加引号第二处,是我在爬虫的过程中将他的爬取类型转换成str类型这两处改完后就能成功将爬虫得到的数据存入数据库之中。...原创 2020-07-29 20:55:50 · 2043 阅读 · 0 评论