![](https://img-blog.csdnimg.cn/20190927151132530.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
爬虫
介绍一下我学爬虫的经过,不喜勿喷
꧁༺北海以北的等待༻꧂
一名已经摆烂了的程序员,如今在奋斗考研一线
展开
-
爬虫登陆实战 --- QQ音乐扫码登陆
爬虫实战教程授人以鱼不如授人以渔开始实战准备工作抓取登陆包进行查看全部代码授人以鱼不如授人以渔爬虫教程千千万,总觉得市面的教程很少教到精髓。这一期做一个本地扫码登陆获取Session的爬虫。开始实战准备工作我们的目标是能够将QQ音乐的扫码登陆在本地执行。也就是保存登陆二维码到本地,弹出二维码,若登陆成功后删除二维码,保留登陆信息。我们首先写出显示二维码函数、删除二维码函数、保存二维码函数。import sysimport os import subprocess'''用于在不同O原创 2020-12-05 12:09:06 · 14850 阅读 · 58 评论 -
数据分析实战 -- 股票量化交易分析
前景提要大二实习结束过去五个多月了。当时入职数据分析还算是有点基础进入的公司。如今这么久不学数据分析了,似乎都有点生疏了。今天写个数据分析实战,为了弥补一下亏欠粉丝的承诺吧。主要目标使用Python爬取股票数据数据清洗并上传至HDFS使用PyHive对股票数据进行分析Python数据分析-量化交易股票量化交易分析使用Python爬取股票数据我们这次的目标地址是url:网易行情中心 沪深行情在这个网站里面找到行业面板,里面随便点开一个行业信息,我在这里点开通用设备制造。因为原创 2020-10-03 18:44:01 · 15690 阅读 · 19 评论 -
爬虫实战 -- QQ空间自动点赞
QQ空间自动点赞前景提要目标确定分析介绍全部代码最后还是希望你们能给我点一波小小的关注。奉上自己诚挚的爱心????前景提要因为我周围的小伙伴们天天跟我说的最多的一句话就是:空间第一条点赞。所以说我还不如直接做一个自动点赞的代码呢,免得天天催我点赞。目标确定分析介绍全部代码import timeimport jsonimport reimport demjsonimport urllibimport requestsfrom lxml import etreeclass原创 2020-10-01 21:22:32 · 12446 阅读 · 38 评论 -
爬虫实战 -- QQ音乐爬取全部歌曲
前景介绍最近小伙伴们听歌的兴趣大涨,网抑云综合症已经遍布各地。咱们再来抬高一波QQ音乐的热度吧。土豪充绿钻 和 刷永久绿钻的除外(me????)爬它!目标:歌手列表任务:将A到Z的歌手以及全部页数的歌存到本地和数据库观察网页url结构当我们进入网页时发现此时是一个无参数的html网页加载。寻找我们想要拿到的位置寻找变化,但我们点击A开头的网页跳转时,发现 url 改变了,index 参数应该是首字母,page 参数应该是页数变化。这样的话就减少一个找参数的时间啦。找到原创 2020-09-27 22:01:37 · 39851 阅读 · 127 评论 -
爬虫前文----简化搞懂cookie和session
Cookie和Session前言cookie 和 session 的由来CookieCookie 属性Cookie 创建Cookie 分类SessionSession 工作原理创建 Session保存 Session销毁 Session检查Session 是否失效总结 Cookie Session相同点:不同点:工作流程:前言最近总是有一些初学爬虫的小伙伴总是搞不懂 Session 和 Cookie 到底是做什么的,为什么爬虫访问网页的时候都用 Session 去访问,为什么 headers 携带 C原创 2020-08-26 16:00:01 · 7637 阅读 · 14 评论 -
爬虫入门 ---- CSDN查看文章全部评论
前景提要最近这段时间的CSDN评论增加很快很快,心思把每一个博客网站的评论都拿下来分析一下,看看自己哪里有不足的地方,看看粉丝们都给我评论了什么,根据粉丝的意愿去继续写博客才是个好的博主啊。网页分析首先启动检查,刷新自己的网页后查看XML中寻找存在评论的XML地址,发现能够找到一共含有的评论页数和当前页面的评论内容。该请求参数除 page 之外均为可固定参数, page 为网页访问页数。大致参数正确,开始写代码!完整代码import urllibimport requestsfro原创 2020-08-11 15:26:15 · 6828 阅读 · 41 评论 -
自制腾讯视频去除水印Chrome插件
前景提要前几期写了一篇关于谷歌插件制作的文章,但是因为没有正经的小实战,一直鸽了这么多期文章,这里写一篇比较受关注的腾讯视频的水印去除的文章,方便各位日后爬取腾讯视频的时候总带其水印爬虫。回顾制作插件简单介绍一下 manifest.json 配置文件里面所需要的参数。name 拓展的名字,必须是字符串类型version 字符串类型,是当前插件的版本号description 拓展的介绍信息permissions 是一个String数组,每一个权限都使用String来表示。某些关键权限在安装前原创 2020-08-10 09:32:39 · 12191 阅读 · 52 评论 -
爬虫实战--拉黑 QQ 空间屏蔽我的“大人物“
前景提要最近发现有人QQ空间对我展开了屏蔽,咱们也不知道怎么惹到人家了,一气之下写了一个小爬虫看看到底谁把我屏蔽了。写小本本记下来!!!代码在最尾部,需要请自取。准备工作python环境:python3.7.4第三方库环境:requestslxmlthreadpoolselenium利用selenium模拟登陆获取cookie并保存到本地def search_cookie(): # 先检测一下是否运行过 if not __import__('os').path.exis原创 2020-08-01 17:45:23 · 14130 阅读 · 82 评论 -
带大家写一波微信公众号的爬取
开发工具python版本 : 3.6.4相关模块:pdfkit模块;requests模块;以及一些Python自带的模块。抓包工具: fiddler环境搭建python 环境安装Python并添加到环境变量,pip安装需要的相关模块即可。fiddler 环境去官网下载最新版本的安装包直接安装。fiddler官网原理简介首先,我们打开fiddler这个抓包软件,其界面如下:然后,我们设置一下过滤规则以过滤掉没用的数据包,因为我们只想抓取微信相关的数据包而已,而不想其原创 2020-07-18 13:43:24 · 12796 阅读 · 65 评论 -
Python爬虫工程师学习养成记
大数据的时代,网络爬虫已经成为了获取数据的一个重要手段。但要学习好爬虫并没有那么简单。首先知识点和方向实在是太多了,它关系到了计算机网络、编程基础、前端开发、后端开发、App 开发与逆向、网络安全、数据库、运维、机器学习、数据分析等各个方向的内容,它像一张大网一样把现在一些主流的技术栈都连接在了一起。正因为涵盖的方向多,因此学习的东西也非常零散和杂乱,很多初学者搞不清楚究竟要学习哪些知识,学习过程中遇到反爬也不知道用什么方法来解决,本篇我们来做一些归纳和总结。初学爬虫一些最基本的网站,往往不带任何反原创 2020-06-29 16:19:50 · 2592 阅读 · 52 评论 -
淘宝卖家价格分析
淘宝卖家必备程序前一阵闲的冒泡开了个淘宝店,因为改价格等各种原因麻烦的不得了,这不就心思爬个虫懒得一页页翻了么!如果你没开过淘宝店或者非得自己亲眼看网页价格,那么这篇咱们就没啥缘分了,我们以后随缘再见~话不多说直接教程(以下教程没开店的人员可能看不懂):首先先进入我们的淘管家。登陆自己的账号,进入我们的店铺页面。我们会看到如下界面首先介绍一下这是我的店铺,我们能发现这里存在买价和卖价,并且还需要翻页才能查看到你所有的店铺信息。在这里我首先想拿到的就是衣服名字、买价、卖价以及这部分的差价。均提原创 2020-05-26 19:54:57 · 8175 阅读 · 62 评论 -
Python爬虫仅需一行代码----crawl第三方库
仅需一行代码写爬虫–crawlcrawl仅需一行代码即可达到爬虫效果项目地址(欢迎star):https://github.com/Amiee-well/crawl使用方法pip install crawlfrom crawl import requestrequest.parse( url='https://www.douban.com/group/explore', type_url='text', #login='taobao', Parsing =原创 2020-05-08 22:40:13 · 20604 阅读 · 83 评论 -
白嫖steam游戏,我是专业的
做自己喜欢的爬虫:steam白嫖闲的无聊做了一期steam白嫖的视频。有了它,以后就再也不会担心游戏没有白嫖到了。查看steam近期免费的网址:https://steamdb.info/upcoming/free/特地做出来个exe可执行文件给大家用,免得电脑没有python的人眼馋。因为该网站是国外steam网站,可能必须要搭VPN才能运行。(悄悄地留下一个自用的VPN哦~)(安卓...原创 2020-05-02 18:15:35 · 47261 阅读 · 80 评论 -
想学Python爬虫么?很简单的鸭~最后一课
python爬虫此文章大致需要观看十分钟Python作为现阶段最流行的语言,对于网络的爬取和海量数据的分析,python更胜一筹。Python 标准数据库接口为 Python DB-API,Python DB-API为开发人员提供了数据库应用编程接口。在这里我主要介绍一下python操作MySQL、执行SQL语句、获取结果集、遍历结果集、取得谋个字段、获取表字段名、将图片插入数据库、执行...原创 2020-04-08 12:37:44 · 16565 阅读 · 36 评论 -
想学Python爬虫么?很简单的鸭~第四课
python爬虫此文章大致需要观看十分钟Python作为现阶段最流行的语言,对于网络的爬取和海量数据的分析,python更胜一筹。Comma Separated Values,简称 CSV ,它是一种以逗号分隔数值的文件类型。在数据库或电子表格中,它是最常见的导入导出格式,它以一种简单而明了的方式存储和共享数据, CSV 文件通常以纯文本的方式存储数据表,由于爬虫的数据量高效且巨大,今天...原创 2020-04-07 13:11:50 · 19194 阅读 · 39 评论 -
想学Python爬虫么?很简单的鸭~第三课
python爬虫此文章大致需要观看八分钟Python作为现阶段最流行的语言,对于网络的爬取和海量数据的分析,python更胜一筹。今天介绍一下beautifulsoup库,BeautifulSoup是爬虫必学的技能。BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,主要的功能是如何解析和提取 HTML/XML 数据。安装beautiful...原创 2020-03-30 00:54:31 · 16628 阅读 · 30 评论 -
想学Python爬虫么?很简单的鸭~第二课
python爬虫此文章大致需要观看十分钟Python作为现阶段最流行的语言,对于网络的爬取和海量数据的分析,python更胜一筹。今天介绍一下requests库,使用requests------Python第三方库,处理URL资源会变得特别方便。安装requests第三方库若您已经安装anaconda,则requests库已经可以直接使用了,否则,则需要使用命令行安装reque...原创 2020-03-19 15:40:43 · 17239 阅读 · 32 评论 -
想学Python爬虫么?很简单的鸭~第一课
python爬虫第一讲此文章大致需要观看五分钟Python作为现阶段最流行的语言,对于网络的爬取和海量数据的分析,python更胜一筹。介绍一下Python的第三方库引入,python3使用import作为第三方模块引入的关键词。urllib则提供了一系列用于操作URL的功能,对于常见的Get、Post以及Handler操作均可做到。(若想了解url方面知识,请寻找专业人士讲解,在此不...原创 2020-03-18 17:07:21 · 17224 阅读 · 28 评论