自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 (二)使用selenium爬取拉钩招聘网信息并存入csv文件

网页分析url = https://www.lagou.com/jobs/list_python?拉钩网中每块信息都是动态异步的 爬取方式1.分析ajax接口(不推荐,因为拉钩网防爬手段很多)2.selenium模拟浏览器爬取这里采用selenium爬取逻辑分析:1.模拟打开列表页分析爬取列表页中所有职位url2.模拟打开所有职位url获取源代码3.解析源代码获取需要的数据4...

2020-05-05 00:30:01 1044 1

原创 (一)selenium分析爬取豆瓣电影短评并存储到mongodb中

分析并写下爬取过程1.打开豆瓣影评url=https://movie.douban.com/review/best/分析页面发现一页有十部电影,循环获取这十部电影的url2.打开其中一部电影url发现其所有短评皆在此页面的一个子url中,获取此url3.进入短评页面获取数据,并存储代码步骤实现我这里用的是定义一个类来实现首先声明__init__class DouBanSpider(o...

2020-05-04 01:09:25 1362 2

原创 一点小小的感想

从初识python到爬虫学习即将结束,也快一个月了,从一开始生硬的跟着敲代码,烦燥于编码或者是列表溢出问题,一天或者两天都解决不了,到现在熟练的边测试边写,有自己的想法与逻辑。我发现,计算机学习确实是由浅入深,由易到难,学习之初为自己能爬取某个页面而沾沾自喜,困难之时动态页面的爬取,验证码的识别,随机代理的使用,模拟登入,框架的理解与使用,真的是从入门到放弃。 在现如今计算机呈爆炸函数的发展情况,...

2020-05-04 00:15:19 159

原创 爬取页面数据并绘制词云

词云是人工智能里的一环,掌握爬取数据并数据可视化绘制词云蛮重要的,这里是爬取51job招聘岗位信息绘制词云import urllib.requestimport refrom wordcloud import WordCloud,ImageColorGeneratorimport matplotlib.pyplot as pltimport jieba.analysefrom bs4 ...

2020-04-12 00:57:54 977

原创 Python爬虫:请求页面基本库(二)request

request用urllib去处理网页验证和Cookies时,需要写Opener和Handler来处理,很不方便,这里我们学习更为强大的库requestget()实例:import requests #导入requestshtml = requests.get('https://www.csdn.net/')#使用get方法获取页面信息print(html.text)#调取text属...

2020-03-30 23:29:48 299

原创 python爬取页面时被gazi压缩以及各种编码方式弄得头脑混乱,在这里理清一下思路和遇到问题解决办法

问题1:为什么会出现乱码呢?字符串在python内部的表示是unicode编码,也可以说现在的内存是unicode编码格式,硬盘是utf-8。平常的数据操作都是先把数据读取到内存中,所以内存中都是unicode编码格式。所以我们平常在做编码转换时候,通常用unicode作为中间编码。先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码格式。...

2020-03-26 15:33:13 406

原创 解决在线视频(如b站等)中没有IDM下载浮动条问题

解决在线视频(如b站等)中没有IDM下载浮动条问题Internet Download Manager是一个多线程下载器,使用IDM下载可以提高5倍下载速度,IDM的使用需要注册,小编在使用时间到期时重新下载了新版本IDM并且无需注册。下载地址但是下载完成之后发现chrome浏览器打开在线视频后,没有显示下载浮动条原来是在删除原版本IDM时,Chrome浏览器中扩展程序一并删除了,添加IDM的插...

2020-03-21 13:42:45 20411 3

原创 python爬虫:请求页面基本库(一)urllib

python爬虫:基本库(一)urllib学习爬虫,最初的操作便是模拟浏览器向服务端发出请求,这里我们就学习使用urlib库的用法使用urllib首先,我们需要了解urllib库,它是python内置的HTTP请求库,也就是说不需要额外安装即可使用,它包含4个模块request:它是最基本的HTTP请求模块,可以用来模拟发送请求。error:异常处理模块。parse:一个工具模块,提供...

2020-03-20 10:50:18 443

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除