网络爬虫
文章平均质量分 95
爬虫学习之旅:记录下学习的过程,积累一点一滴的经验....
落凡尘.
So far so good.
展开
-
毕设模块之一:最新版 微博网络爬虫(可登录版)
前言以及微博站点简单说明论文查重和格式检测完成后,就继续做毕业设计。不过微博爬虫真的各种问题调试了一个月,先从破解登录,分析weibo.com和weibo.cn,发现weibo.com的难度太大,设计很多加密以及时间戳....但是weibo.com上面的信息真的很人性化,不论是布局还是美观度,或则...原创 2020-04-09 12:53:40 · 4133 阅读 · 10 评论 -
python 3爬取 全国高校对四川历年招生数据(文理省控线,文理专业线)存入Excel表(重构)
原文章地址:https://blog.csdn.net/memory_qianxiao/article/details/82388370由于很多朋友需要这种数据,因为发布以来,有很多人再问我要源代码,我也给了,直到3月10多号某一天,有人告诉我,运行后没有数据,我自己也去测试一下果然没有数据,然后简单排查发现,是请求的网址变了....由于在准备蓝桥杯比赛,在做题,没有仔细排查,后来仔细排查,发...原创 2019-03-23 21:41:08 · 4429 阅读 · 44 评论 -
scrapy框架+selenium驱动谷歌浏览器爬取简书网站存入mysql的网站级爬虫
前言:由于以前是学了爬虫的,以前常用request,bs4,re等来爬去网页等数据,也爬过一些大型网站,后来很多人都说request适合网页级爬虫,爬网站级还是异步的scrapy框架好,二者都是优秀的爬虫工具,request适合新手,入门很轻松,爬取的逻辑和过程也好理解,scray入门稍难是一个系统的5+2结构,很有可能会懵逼,要花一段时间理解运用,才能逐渐理解这个框架,毕竟官方的文档写的说明就那...原创 2019-03-16 20:24:14 · 1798 阅读 · 0 评论 -
scrapy框架爬取Boss直聘,数据存入mysql
自从上次用了scrapy爬取豆瓣电影后,发现scrapy除了入门相对request较难外,各方面都挺好的,速度很快,还有各个功能模块,以及django类似的各种中间件组成一个完善的系统框架,需要一点一点的学习,了解,毕竟官方文档写的太随性了~~~这次我爬取的是boss直聘上的各种职业,以及该职位的薪水,地点,公司等情况....老规矩镇楼图如下:一张表大概有300个数据,因为b...原创 2019-03-12 12:50:52 · 3616 阅读 · 20 评论 -
网络爬虫框架scrapy 初试 爬取豆瓣电影top250
以前一直用的网页级爬虫库(request),爬取了很多东西,12306余票,全国高校对四川招生,文章,图片等,不是说request不好才来学scrapy的,它们各有各自的优点和使用的场景。下面小小总结一下两者的区别:request网页级爬虫,爬取速度较慢,但是写出来的逻辑容易理解,也比较简单,适合爬虫初学者,而scrapy是一个系统的框架,功能全面,异步爬取,速度快,但是理解起来较难,不太适...原创 2019-03-06 17:04:29 · 1764 阅读 · 0 评论 -
python3 requets+re 批量爬取千千(原百度)音乐
以前实验室同学需要文章和音乐,需要用爬虫爬.....要做东西参加比赛,表示好久都没写爬虫了....正如今天的正题,批量爬取千千音乐(原百度音乐)...博主会写下爬取的过程和心得(采坑记录),批量下载的音乐的有效代码虽然才50多行,但是采坑会花费大量时间和精力...老规矩放几张镇楼图正好博主也正在爬数据.....代码会自动创建在桌面的文件夹,里面包含8种类别的子文件夹(文件夹的种类会随着t...原创 2018-11-23 19:45:24 · 1703 阅读 · 0 评论 -
网络爬虫:Python+requests+re+xlwt 爬取淘宝商品并把价格和名字写入Excel表格
由于脑袋不够聪明,学校的acm实验室做算法题,打比赛,我是真的跟不上那些大佬...就看到人以前实验室退出的,加到 其他实验室学习项目,做项目,做项目相对学习算法来说,没有那么烧脑,还能做出有趣的东西....我就想学习做项目,因为打比赛我是拿不到能看的成绩.....我们实验室的指导老师,也挺为大家考虑的,让喜欢打比赛的暑假集训,继续刷题,学习算法,还为了,一部分人开设了项目组,进行机器学习,网络爬虫...原创 2018-07-05 17:50:35 · 5280 阅读 · 5 评论 -
批量爬取自己输入关键字图片的类型 requests+re+os
最近两周,都在暑假集训实验室(acm)别人都是学习算法参加比赛,指导老师为我们小部分人开的项目组学习,因为我发现了,算法太灵活,脑袋确实不够用,参加程序设计也没取得好的成绩,所以这学期中后部分就想学习项目。感谢指导老师我们考虑,同时还在督促我们机器学习,瞄准实习岗位的针对性学习....图片爬虫需要环境:python 3.6 (官网下载 3.6 https://www.python.org/dow...原创 2018-07-12 21:00:56 · 1026 阅读 · 0 评论 -
python爬虫之requests的基本使用
python爬虫之requests的基本使用 简介 Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库,Requests它会比urllib更加方便,可以节约我们大量的工作。一、安装 pip快速安装1pip install requests 二、使用 1、先上一串代码1234567891011121314import re...转载 2018-07-13 15:50:45 · 1301 阅读 · 0 评论 -
网络爬虫:Python+requests+bs4+xlwt 爬取京东商品存入Excel表
学了网络爬虫两周了,还是比较喜欢用网页级库requests,很灵活方便,scrapy网站级面向对象库,还不熟悉,可能是原来c++学习面向对象就没学好,对面向对象编程还没理解好吧...两周中爬了淘宝,京东,天猫(爬取失败,反爬虫把我这种新手难倒了,登录验证就卡死),爬取搜狗批量下载输入的类型图片...用beautifulsoup,正则表达式的理解更加深入,慢慢有自己的认知和经验。进入正题。。。这次爬...原创 2018-07-16 14:33:40 · 6400 阅读 · 15 评论 -
简单图形界面初学 :tkinter+阿里云接口+爬虫,实现全国天气查询
可能需要的环境: Python 3.6官网下载 需要下载的第三方库:requests 其余为python自带不需要下载 首先看下效果图具体写作过程参考b站视频传送门:GUI天气预报接下来实现过程,首先创建窗口,设置标题,布局窗口,设置标签,按钮,就直接粘贴代码:如果对创建窗口的函数不熟悉:请点击python中tkinter的使用(控件整理)(一...原创 2018-07-19 20:14:09 · 1160 阅读 · 0 评论 -
python 3爬取 12306余票
马上暑假集训结束,又要开学了,暑假集训老师让我们交暑假的学习成果~~虽然制作了几个小的网络爬虫的东西软件,什么淘宝,京东,天气,图片爬取的....但还是想要交个更好的,毕竟还是有成绩的。。。爬取12306功能是实现了,但是图形界面看到一位博主模仿12306把图形界面写的那么好看,我就搬过来,不停的修改,一直有个BUG错,两个py文件调用其中一个函数返回的列表居然是空的!!!然而打印那个列表有...原创 2018-08-22 16:37:28 · 4985 阅读 · 19 评论 -
python 3 爬取12306余票:升级版-----图形化界面
由于上篇博客已经把爬取12306功能实现,这篇主要是在上篇文章上进行升级。想知道爬取12306实现过程点击:点我进入python 3爬取12306。这里的图形化界面参考这位博主:点击原博主地址,写的真漂亮,一直以为tkinter写的图形化界面不可能漂亮到哪去,这篇文章就让我改变了认识。就借鉴了他的,果然不是自己写的,调试代码很繁琐,调试了几天,终于弄好了。先上一张图片镇楼!环境:...原创 2018-08-23 21:00:50 · 2389 阅读 · 2 评论 -
requests 警告:InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verif
最近爬12306,没有安装证书。每次请求都会有下面的ss警告,看到不是很舒服。 InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/e...原创 2018-08-24 08:52:19 · 34490 阅读 · 5 评论 -
python 3爬取 全国高校对四川历年招生数据(文理省控线,文理专业线)存入Excel表
由于我们的acm的指导老师对项目组布置的一个高考志愿学校推荐系统,是大数据和机器学习的结合,我负责的是爬取数据,给机器学习小组用,网页数据不在你搜索当前学校网页上看到的那样,是通过js生成的。数据来源:https://gkcx.eol.cn/soudaxue/queryschool.html,这个网址的数据相对来说很齐全....目前来说能够找到高校录取数据最多的网址。提示:由于网站更新,采用a...原创 2018-09-04 20:40:25 · 5229 阅读 · 13 评论 -
python 3爬取 四川一分一段数据(查分数在哪个区间段)
今天项目组某个同学机器学习需要知道分数对应哪个区间段,于是乎,我又成了苦力了...我们爬取网址是:http://www.creditsailing.com/zt/gaokao/yifenyiduan.html#sichuan里面还有其他省的,可以换省查询。这次爬取的是这个数据很简单,终于不再是像上篇那么贼难,数据还难处理,现在心里都难受的...需要的环境:python3 +pyc...原创 2018-09-05 17:49:39 · 1148 阅读 · 0 评论