24K菜菜菜鸟-CSDN博客

原创简单爬虫+pyecharts分析前途无忧招聘职位数量

爬虫+pyecharts分析前途无忧招聘职位数量关于pyecharts的安装与使用可参考:http://pyecharts.org/#/zh-cn/intro 代码如下 from pyecharts.charts import Bar from pyecharts import options as opts import requests from urllib import parse im...

2020-04-11 18:55:49 431

原创利用Scrapy框架爬取前途无忧招聘信息

利用Scrapy框架爬取前途无忧招聘信息关于安装和命令使用可参考：https://docs.scrapy.org/en/1.7/intro/install.html 先创建项目和爬虫文件分析网站发现输入搜索内容跟url链接保持一致，且更换页数后的数字也跟url链接有关系（看url链接红线标识）这样我们就可以通过修改url来选择性爬取所有页面的招聘信息继续分析这里直接显示了所有职位...

2020-04-11 14:32:20 635

原创爬虫之爬取车票信息

使用charles抓包软件，抓取手机APP全国汽车票的数据并实现查找车票的功能关于charles使用可以参考https://blog.csdn.net/smalCat/article/details/79817398 手机和电脑配置好charles后，打开APP全国汽车票软件即可在charles看到抓包的数据在APP在上搜索车票信息时，发现多出一个链接（这里面很可能就有我们想要的车票信息） ...

2019-12-25 13:01:34 1182 1

原创爬虫之爬取知乎热榜

使用BeautifulSoup库爬取知乎热榜由于知乎有反爬机制，所以这里我们用到随机头部，代码如下 import requests from bs4 import BeautifulSoup import lxml import random url = 'https://www.zhihu.com/billboard' agent_list = [ "Mozilla/5.0 (iPh...

2019-12-23 14:25:05 1861 1

原创爬虫之登录清空淘宝购物车

1.本次是使用selenium库模拟浏览器登录并清空购物车关于selenium库的使用可参考:https://cuiqingcai.com/2599.html 2.代码如下: from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui i...

2019-12-16 12:08:16 609

原创爬虫之爬取贴吧壁纸

利用BeautifulSoup库爬取贴吧壁纸保存到本地首先分析网页，发现每换一页URL的pn都会跟着变动，那我们只要修改pn的值就可以爬取全部的页面接着分析，发现红圈的div包括了此页面的所有信息，图片也是在这下面。整理一下信息，我们可以先爬取红圈里的信息然后通过遍历把所有页面的图片都拿出来。代码如下 from bs4 import BeautifulSoup import reques...

2019-12-06 20:30:41 234

原创爬虫之Cookie登录（一）

利用Cookie登录人人网首先登录人人网，然后分析主页（cooike要自己先登录后才能找到）把cookie复制下来，代码如下 import requests from lxml import etree cookie = "anonymid=k1ouz2kn4ykh9u; _r01_=1; jebe_key=7ed442f9-b646-4f95-9539-ada0c0936bea%7C1...

2019-12-06 13:35:59 256

原创爬虫之爬取豆瓣排行榜

首先我们先分析一下页面 https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&interval_id=100:90&action= 可以看到这个链接并没有我们想要的信息，所以接着往下找直到找到这个链接，这个里面才有我们想要的信https://movie.douban.com/j/ch...

2019-12-05 23:38:56 751

MQL1341480611的博客