
Python_Spyder
文章平均质量分 52
Lead everyone to learn python_spyder,I wish my articles could help you
Forerunner_Successor
追寻先烈的遗志,纵观古今得心志。
要么一往无前,要么一败涂地。
故不积跬步,无以至千里。
大道至简,短小精悍。
有志者,事竟成。
展开
-
python多线程爬取某瓣Top250电影信息存为txt(requests库,multiprocessing库,os库)
今天,忍不住了,找我同学借电脑来编程,一天不编程,全身难受。代码如下:from lxml import etreeimport requestsimport timeimport refrom multiprocessing.dummy import Poolimport randomimport os"""#encoding="utf-8"#Author:Mr.Pan_学狂#finish_time:2022/2/21 23:39"""url_ls = []for n in原创 2022-02-21 23:46:57 · 856 阅读 · 0 评论 -
python爬取唐诗300首的诗名和对应的诗人存为Excel
今天,又为了生活而奔波,干了一天的苦力。测试通话是否正常,耳朵都快测废了,明天还有一天。虽然深度学习没有精力搞不了,但是不编程是不可能的,这辈子都不可能不编程。编个爬虫顺便跟大家分享一波python爬取数据存入Excel的操作。废话不多说,上代码开干!!import requestsimport osimport reimport timeimport xlwt"""#encoding="utf-8"@Author:Mr.Pan_学狂finish_time:2022/2/17 23:原创 2022-02-17 23:26:47 · 4645 阅读 · 2 评论 -
多线程爬取sina新闻的标题和简介内容存储为本地txt文件(selenium库,re库,threading库)
今天,又研究了一波多线程。感觉还可以接受,所以,发文跟大家分享一波。关于代码的解释我写在注释中了,若有不理解可以与我私聊。爬虫部分代码如下:#encoding="utf-8"#Author:Mr.Pan_学狂#start_time:2022/1/30 12:23#finish_time:2022/1/30 19:19import requestsfrom selenium import webdriverimport reimport timeimport osimport rand原创 2022-01-30 19:22:54 · 944 阅读 · 0 评论 -
MongoDB小项目,第一部分爬取数据存入MongoDB
搞了很多天,再加上这两天去工地干苦力赚点外块,又耽误不少事,不过,好在还是弄出来了。关于代码的解释,我就不过多解释了,想要做的人可以自行研究和实践。我换了好几种思路,有点乱。做项目的时候也是忘了写注释,懒得写了。。。这是小项目爬虫部分的代码,我刚学了多线程爬虫,第一次用,贼爽。#encoding="utf-8"#Author:Mr.Pan_学狂#Finish_time:2022/1/25 4:40import requestsimport osimport reimport timeimp原创 2022-01-25 04:42:55 · 1016 阅读 · 0 评论 -
爬取某讯视频的斗罗大陆Json评论数据到MongoDB存储数据
关于使用MongoDB数据库存储数据,我有一些看法,当我们爬取的过程中遇到Json格式数据,或者是字段名不统一的数据时,可以采用MongoDB进行存储,因为,MongoDB具有自增新字段名的功能,以前没有的字段可以新增,意思就是里面的数据可以是不统一字段名的数据,我先举个例子:我们先创建一个DB2数据库,并创建一个集合(数据表)tb,并且插入一条数据。结果显示,数据库创建成功。现在,我们来检验一下往集合(数据表)中插入不同字段名的数据是否对集合有影响(是否报错)。接着,我们打开DataGrip或者原创 2022-01-13 14:12:59 · 628 阅读 · 0 评论 -
python的requests库爬取Json数据,从Json数据中提取标题和图片(某综艺节目)
今天,有粉丝想要了解更多爬取Json数据,存储Json数据,提取Json数据中信息的内容。因此,我接着发文给大家分享一波。我今天随便找了一个腾讯视频的综艺节目作为例子来分享Json数据的爬取,存储,提取,还是一样采用Fiddler抓包,抓到Json数据。关于Fiddler的安装,详情见:Fiddler安装抓到的Json包,如下图:代码如下图:import jsonimport requestsimport osimport reimport timeimport random'''原创 2025-03-06 00:52:16 · 3162 阅读 · 0 评论 -
python爬取Json数据,re提取,存储Json数据,进行评论分析(某奇艺斗破苍穹评论)
今天,看了数据分析的一个视频,很上头,讲的是怎么使用Json库分析Json格式的数据。我想着,我自己编一个Json文件,然后分析一下也可以。后来,觉得直接从网上爬取可能更好。而且,我也是第一次尝试爬取Json格式的数据,挺有挑战性的。关于这一次Json数据的网址是用Fiddler抓包抓到的,关于Fiddler的安装,可以参考我的文章:文章地址。抓到的评论是以Json数据出现的,如下图:完整代码如下图:#Author:Mr.Pan_学狂#start_time:2021/4/21/18:15原创 2021-04-21 23:41:38 · 2110 阅读 · 7 评论 -
python的requests库批量爬取图片,re提取
今天,接着跟大家分享一波用requests库批量爬取图片,re库提取。我们先去这个网站,然后将红框内每一个地区或者是国家第一页图片提取下来。如下图:这里,以北京的第一页图片为例,有20张。其他地区和国家也是如此。如下图:代码如下图:#encoding='utf-8'#start_time:2021/4/1 16:10#finish_time:2021/4/1 18:20#Author:Mr.Pan_学狂import requestsfrom bs4 import BeautifulS原创 2021-04-01 20:33:57 · 1105 阅读 · 3 评论 -
python的requests库爬取Sina新闻,用bs4,re库提取,os库保存txt文件,try-except处理。
今天,我接着跟大家分享一波。最近,我的fans说想要学一下用requests库爬取文本,这不?我就推出一波requests库爬取Sina新闻。希望能对大家有所帮助。进入新闻页面,如下图:我们要获取所有的文字内容,我们发现大部分内容在链接标题的li标签内。所以,编写代码如下图:import requestsimport randomimport timeimport osimport refrom bs4 import BeautifulSoupdef spyder(): url原创 2021-03-30 15:01:24 · 748 阅读 · 2 评论 -
python的requests库爬取和re库提取,os库使用(实现爬取wrecking_Ball音乐)
今天,我接着跟大家分享一波爬取wrecking_Ball。昨天搞得东西有点多,没有发文现在补上。因为,我的fans想要了解一下requests库怎么爬取音频,我就再发几篇文章作为参考。大家也可以看看,希望能对大家有所帮助。完整代码如下图:def spyder3():#wrecking ball headers1 = {#设置请求报头 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36原创 2021-03-29 07:36:15 · 329 阅读 · 0 评论 -
requests库和re库爬取music,os库使用
昨天,帮助我的一个粉丝爬取了一个酷狗音乐的《程响 - 四季予你》。我觉得这次的爬取有点意思就跟大家分享一波。首先,我们按照正常的流程走是行不通的,因为页面源代码并没有音乐的链接。(没有audio标签内的音乐链接)因为,我们发现src是空的,什么都没有,如下图:那我用抓包工具Fiddler1.5.1(Fiddler1.5.1),抓取到了两个JSON数据的页面。如下图:把转义符的反斜杠去除后,可以访问,就是我们需要的音乐链接地址。因此,就把这个地址作为第一个url地址,然后将爬取到的json格原创 2021-03-23 13:48:45 · 275 阅读 · 0 评论 -
python的requests库爬取陈百强《偏偏喜欢你》,使用re库(正则表达式)提取,os系统模块使用,去除‘\‘反爬符号
今天,我听见一首不错的老歌,名字是《偏偏喜欢你》。陈百强大哥唱的,名如其人确实很强!我敬佩的粤语歌手的之一。然后,我太难了,整了3个小时,对于我一个学了1个月爬虫的老司机来说真的很尴尬。不过,这次我没有用Selenium库爬取,如果用selenium会很快搞定,不会有问题。下面我们一起体验取经的感觉!!完整代码:#encoding = "utf-8"#Author:"Mr.Pan_学狂"#start time:2021/2/22/22:30#finish time:2021/2/23/00:40原创 2021-02-23 13:54:51 · 473 阅读 · 0 评论 -
爬取数据到mysql数据库存储数据
今天,我跟大家分享一波从爬取数据到mysql的数据存储。这次,我选择的案例网址是:https://news.sina.com.cn/(新浪新闻),我截取新闻其中一个小部分来爬取,来简单阐述怎么将爬取的数据存储到数据库中。这是要爬取的内容,我只爬取标题和标题对应的链接。完整代码如下:#encoding='utf-8'#Author:Mr.Pan_学狂#datetime:2020/10/30 1:44#finish time:2020/10/30 1:44from selenium import原创 2020-10-30 01:50:35 · 3027 阅读 · 0 评论 -
python从入门到放弃篇40(selenium库,lxml库,requests库,time库,构造url)爬取列表中的象棋视频
今天先把昨天的发文补上再说,昨天在搞Flask框架搭建,并且尝试批量爬取视频,遇到了一些坑,跟大家分享一下。这次我们案例的网址是:https://haokan.baidu.com/v?vid=13433481203252935978&pd=bjh&fr=bjhauthor&type=video。我们进去后,会看见如下画面:我们这次要做的是要把旁边列表中的视频爬取下来,完整代码如下:from selenium import webdriverfrom bs4 import原创 2020-08-05 13:33:34 · 663 阅读 · 0 评论 -
python从入门到放弃篇39(selenium库,requests库,正则表达式re,系统模块os)实现皇后大道东的音频爬取,并保存到本地。
今天,我刚刚爬取成功,曾经的经典老歌《皇后大道东》,现在正在听,很舒服,喜欢老歌的朋友可以跟我一起来爬取老歌,我们每一天都有新的东西,每一天都会比昨天进步一点,我想这就足够了。此次案例的网址是:http://www.jdlg.net/baolijinjingdianlaoge/A925.html。完整代码:from selenium import webdriverfrom lxml import etreeimport requestsimport timeimport reimport原创 2020-08-02 14:32:54 · 611 阅读 · 0 评论 -
python从入门到放弃篇38(selenium库,requests库,lxml库)爬取音乐believer现场MV
我挺喜欢梦龙(Imagine Dragon)的歌,所以,我去搜了一波xx音乐(只可臆想,不可言传),发现要2x币下载,所以,脑热,就去网上搜现场版MV,过瘾,有激情,试了一下,直接下载不了,刚好赶上我最近在学爬虫,所以,干脆自己动手爬下来,在此,我跟大家分享一波。此次案例的网址是:https://haokan.baidu.com/v?vid=15746080043707732068&pd=bjh&fr=bjhauthor&type=video。喜欢梦龙的朋友,可以跟着我一起用这原创 2020-08-02 01:04:57 · 551 阅读 · 0 评论 -
python从入门到放弃篇37(selenium库,requests库,time库)联合爬取豆瓣全部小说图片
今天,这是在之前的36篇基础上进行升级版本。我本来想着就是再加一个页面的循环,就能爬取所有图书的图片了,但是,后来发现事情不简单。。因为,如果爬取全部页面,沿用36篇的代码就会出现图片重名的情况,那就白忙活半天时间了鸭,所以,自己想了个办法,设计一个计数器,当开始爬一个图片时,计数器就会加一,自动生成不同的图片名,这样就能保证爬下所有图片了。而且,还有一个问题,我的图片并不一定想要保存在pycharm编辑器路径下的文件夹(目录)内。所以,我由想了一个办法来解决,自己去网上搜了python创建文件夹的方法,原创 2020-07-31 20:25:13 · 297 阅读 · 0 评论 -
python从入门到放弃篇36(selenium库,request库,time库)开启万花筒联合爬取豆瓣小说图片
这几天,一直在研究爬取图片的方法,今天终于有了成效,赶紧发文纪念一波。这次,我选择的是三个库联合爬取,我觉得这样可能效果会更好一点。安装selenium库和requests库的方法,我之前的博文有说,需要的同志可以参见我前面写的博文,自行安装和下载,当然,安装过程中遇到困难,也可以与我私聊探讨,我很乐意帮助你。这次,我们的案例网址是:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4。完整代码:from lxml import etreefrom sele原创 2020-07-31 16:46:48 · 292 阅读 · 0 评论 -
python从入门到放弃篇35(BeautifulSoup库)爬取A神waiting for love歌词
今天,在研究BeautifulSoup库的使用方法和技巧,我看了一下BeautifulSoup库函数,觉得BeautifulSoup库没有lxml库的xpath函数那么好用,各有优势吧。案例网址:https://zhidao.baidu.com/question/877231635748319892.html。完整代码:from bs4 import BeautifulSoupimport lxmlimport urllib.requestimport timeurl = 'https://原创 2020-07-30 18:20:14 · 364 阅读 · 0 评论 -
python从入门到放弃篇34(selenium库开启万花筒写轮眼)开启无界面模式,爬取豆瓣名著
今天,突然发现,selenium库不开万花筒的话,有点脑热,因为,每爬一页就打开一个网页,除非我是撕裂者3990X的CPU,64核,128线的,但是,我的CPU不是,所以,怕到时候打开页面太多,直接卡机废了。。我就去搜了开启万花筒模式,这样就更好了,直接爬数据不用打开浏览器页面。这次案例的网址是:https://book.douban.com/tag/%E5%90%8D%E8%91%97?start=0&type=T完整代码:首先,我们先导入需要用到的库,selenium库和time库。然后,原创 2020-07-27 15:09:17 · 1778 阅读 · 0 评论 -
python从入门到放弃篇33(selenium库)实现翻页爬取豆瓣小说,保存为xlsx文件到本地
之前,我做过豆瓣小说爬取的案例,要是有兴趣的同志可以去看我之前写的博文,但是,那个博文中我提到过,爬取的并不完善,而且,用构造法来爬取效果较差,为了省事,现在我用selenium库来再重新爬取豆瓣小说,爬取内容完整,实现翻页爬取也无需重构新的url,案例网址:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=0&type=T。完整代码:首先,还是导入我们可能会用到的库,selenium库和time库,如下图:接着,先获取第一个的页面信原创 2020-07-26 02:37:05 · 1700 阅读 · 1 评论 -
python从入门到放弃篇31(selenium库)模拟天猫登录输入不含验证码,初步实现
今天把之前两天的文章补上再说。这两天在研究模拟登录。暂时还没有进展,但是我相信会好起来的。我之前有一篇博文,是说爬取天猫图书信息的,我是在爬了一页后,也就是60本书后,遇到一个问题,就是碰到天猫要求登录才能查看所有图书信息,也就是说登录后才能爬取全部,所以,就开始研究登录爬取。我们这次案例的网址是:https://www.tmall.com/,我们先来爬取一页试试手。完整代码:首先,我们还是用之前博文说的selenium库模拟搜索和点击加上构造xpath路径,来爬取商品魔方全套的第一个页面。我们的原创 2020-07-25 22:31:18 · 855 阅读 · 2 评论 -
python从入门到放弃篇30(selenium库,lxml库,urllib.request库)联合实现简单页面深入爬取
这几天一直在想,如果浏览器能点进一个链接,然后,点击当前的页面的链接,又可以进入下一个页面,那么爬虫能不能实现呢?我个人偏见,这是一个有意思的发现,我把这种爬取方式称为深入爬取,简单来说,就是我们写的爬虫,就像是浏览器去浏览网页一样,爬虫看见的东西,都可以爬下来,可以模拟人的行为,点击链接进去,获取链接的页面,然后,链接里面的链接页面内容也可以通过这种方式获取。这就像是生物学的细胞分裂,一个页面变出两个页面,两个页面变出四个,往复如此,直到最后一个页面的信息被提取完毕。这样,我们的爬虫就不再是单页面网页爬原创 2020-07-25 16:21:13 · 487 阅读 · 1 评论 -
python从入门到放弃篇29(selenium库)for循环爬取名人名言动态网页并保存数据到本地计算机上
今天,又是个美好的一天,我因为开始自学爬虫,所以就顺便看看爬虫重修群的作业(当然我没有挂科),我觉得这次作业还有一些意思,所以,我自己就解决了这次作业。完整代码其实也就20多行左右:我们这次的案例,不是我自己想的,是老师的作业,网址是:http://quotes.toscrape.com/js/,我们先进去看一下,如下图所示:然后,我们往后翻页,发现它这个页数是固定的,只有10页就翻完了。所以,我们可以利用这个特点。首先,先导入我们会用到的库,selenium和time。如下图:接着,将案例网原创 2020-07-22 19:53:26 · 1171 阅读 · 0 评论 -
python从入门到放弃篇28(selenium库)实现天猫页面打开,用for循环爬取书名信息,并存储信息。
今天,晚上得好好复习了,因为白天又研究了一波爬虫,所以,有所收获,然后,发文纪念一下,顺便完成今天的发文任务,明天要考试了,所以,晚上得复习复习了。我这里就默认看这篇文章的同志是已经装好selenium库的了(没有装好的同志可以看我上一篇博文有说),所以,接下来,我们直接上代码,我们这次的案例网址是:https://www.tmall.com/,我们先导入webdriver,再用get请求天猫网址。所以有:我们先模拟天猫搜索框的搜索,把它的xpath路径提取下来,然后,再用函数driver.send_原创 2020-07-21 20:24:04 · 1487 阅读 · 0 评论 -
python从入门到放弃篇27(selenium库的安装与基本配置)实现简单的web页面打开
今天,还是学爬虫,又学了一个新方法,就是无界面浏览器,原来看人家用PhantomJS(),但是现在作者已经发文说,暂停维护了,所以,用chrome(谷歌)的吧。我们先去官网找到对应谷歌浏览器的版本下载,谷歌浏览器版本查询,我们可以用命令,来安装selenium库。如果,不行,请尝试更新pip,再安装,更新pip的命令:打开chrome(谷歌)浏览器,在搜索框内,输入命令:chrome://version/即可查看。我的谷歌是84版的所以选择去下载对应的版本。然后,下好后,我们可以测试一下,原创 2020-07-20 23:48:06 · 291 阅读 · 2 评论 -
python从入门到放弃篇26(lxml.etree库,urllib.request库,构造xpath路径,构造url)实现翻页爬取豆瓣书简介并保存数据
今天,我研究了构造url和xpath路径的方法实现翻页爬取数据。觉得还可以,不过还是存在一些问题,没有我想的那么理想,因为,目前只实现了爬取每一页的第一本书及其书评。我等有时间会再去研究。第一步,我们要先导入各种需要的库。之所以导入时间库,是为了控制爬取速度,基本的爬虫对抗反爬手段,还有一个目的就是不要瞬间多次请求网页资源,容易导致网页崩溃(道德问题)。第二步,我们打开百度搜索,搜索豆瓣,出现如下图,然后,我们选择豆瓣读书,点击链接进去。找右侧,看见如下画面,找到小说专栏,点击进去。看见如下原创 2020-07-20 16:13:08 · 446 阅读 · 0 评论 -
python从入门到放弃篇25(lxml.etree库,urllib.request库,xpath方法,for循环构造xpath路径)爬取一刀999页面,并保存数据。
今天,我研究了一天的爬虫构造方法,自己看了一下书上有讲url的构造,我自己突然想到,url可以构造,那么xpath路径也可以构造啊?试验了一下,还真的可以,所以,跟大家分享一下。现在感觉很舒服,因为又学到新的东西了。案例网址:http://tggg.37.com/?uid=2743062&bd_vid=12353914052143466403第一步,我们还是照常的导入我们可能需要使用的各种库。第二步,将url搭建好,并设置好请求报头。第三步,将设置好的url和请求报头headers参数赋原创 2020-07-19 23:52:45 · 751 阅读 · 1 评论 -
python从入门到放弃篇24(lxml.etree库,urllib.request库,xpath方法)爬取一刀999传奇页面,并将数据存储到本地计算机中。
今天,因为我们的课设的需要,所以,能者多劳嘛,我自学了爬虫,从此撑起了我们宿舍课设的重担。第一个数据采集(数据获取)。我看书研究了一波,感觉很不错,然后,就用一个小案例跟大家分享一波。爬取当年的传奇一刀999游戏网页。案例网址是:http://tg2.898play.com/z/kf/50/06/?pyx_url=tg-kj7-cq-yd999闲话不多说,上代码:第一步,先导入lxml,request库第二步,设置请求报头,设置成浏览器,基本的爬虫对抗反爬手段。将设置好的url和headers原创 2020-07-17 13:47:52 · 493 阅读 · 1 评论