Python实战
阿优乐扬
阿优乐扬是一种追求,一种标准,一种态度,一种精神;阿以至优,乐享于扬!2017级贵州财经大学信息学院学生,主修专业信息管理与信息系统,辅修专业金融学。学习方向为数据挖掘与数据分析,欢迎交流学习13124677419
展开
-
python selenium 爬取《全国农产品商务信息公共服务平台》
这是我参与的第二个项目,进程还是很顺利的。这也不断改进的过程,总共有三个版本:第一个版本是普通的爬取,对于某个农产品关键词,获取它全部的内容,后来由于我的网速太差,python运行报错了,每个农产品都拥有八百多个页面,如果重新开始,就会浪费很多时间,还不能确保它出错,于是我就改进成了第二个版本;第二个版本是对某个农产品定页爬取,爬取某个页数区间的产品,用来弥补第一个版本信息出错后,接着上次...原创 2020-01-05 23:23:52 · 2546 阅读 · 1 评论 -
python爬虫实战之爬取中国农药网
前言:这算是和研究生老师第一次正式的进行项目,虽说开始的有点随便,但是第二战还是挺成功的!自己作为一个本科生,也很幸运可以跟着学点知识,随便帮自己学院的老师出点力。还记得第一次交接任务时是很陈瑞学长,初战《贵州农经网》,还算成功,后来由于需要分类,暂时告一段落。这次的目标是《中国农药网》,这是一个农药行业门户网站,集信息资讯、农药信息,交易服务于一体的专业化、电子商务平台。我主要就是获取到某类...原创 2020-01-03 13:07:34 · 2199 阅读 · 4 评论 -
爬取携程攻略社区所有笔记保存到txt文件
这是一个朋友做的旅游方面的分析,需要游客的所有笔记的文本,并且保存在一个txt里源码如下:import requestsfrom lxml import etreefrom bs4 import BeautifulSoupheaders = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKi...原创 2019-10-13 22:42:03 · 444 阅读 · 1 评论 -
Python selenium爬取知乎用户信息存入Excel表格
知乎介绍: 知乎是网络问答社区,连接各行各业的用户。用户分享着彼此的知识、经验和见解,为中文互联网源源不断地提供多种多样的信息。准确地讲,知乎更像一个论坛:用户围绕着某一感兴趣的话题进行相关的讨论,同时可以关注兴趣一致的人。对于概念性的解释,网络百科几乎涵盖了你所有的疑问;但是对于发散思维的整合,却是知乎的一大特色。2017年11月8日,知乎入选时代影响力·中国商业案例TOP30。知乎官网: ...原创 2019-08-25 01:04:28 · 1489 阅读 · 2 评论 -
Python爬取12306车次信息
from selenium import webdriverfrom lxml import etreeimport timedriver = webdriver.Chrome()url = 'https://kyfw.12306.cn/otn/leftTicket/init'driver.get(url)def sendKey():#模拟搜索 driver.find_elem...原创 2019-08-20 23:45:30 · 792 阅读 · 2 评论 -
selenium绕过滑块验证登录淘宝网
from selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport timethings = input("请输入您要查询的商品:")driver = webdriver.Chrome()driver.implicitly_wait(5)def scan_login(url): ...原创 2019-08-21 00:26:37 · 5067 阅读 · 6 评论 -
selenium+lxml爬取(查询)拉勾网职位信息
from selenium import webdriverimport timefrom lxml import etreedriver = webdriver.Chrome()url = 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput='driver.get(u...原创 2019-08-17 20:37:46 · 684 阅读 · 5 评论 -
selenium登录 爬取淘宝商品信息
淘宝网: 淘宝网是亚太地区较大的网络零售、商圈,由阿里巴巴集团在2003年5月创立。淘宝网 是中国深受欢迎的网购零售平台,拥有近5亿的注册用户数,每天有超过6000万的固定访客,同时每天的在线商品数已经超过了8亿件,平均每分钟售出4.8万件商品。随着淘宝网规模的扩大和用户数量的增加,淘宝也从单一的C2C网络集市变成了包括C2C、团购、分销、拍卖等多种电子商务模式在内的综合性零售商圈。目前已经成为世...原创 2019-08-22 21:26:48 · 2680 阅读 · 5 评论 -
第三方登录知乎
from selenium import webdriverfrom selenium.webdriver.common.keys import Keysfrom lxml import etreeimport timedriver = webdriver.Chrome()driver.implicitly_wait(5)chrome_option = webdriver.Chrom...原创 2019-08-22 23:14:44 · 376 阅读 · 0 评论 -
python requests爬取拉勾网职位信息
前言:拉勾网是一家专为拥有3至10年工作经验的资深互联网从业者,提供工作机会的招聘网站。拉勾网数据爬取是一个蛮经典的爬虫案例 ,由于被频繁被爬取的原因 ,网站经过不断更新 ,加入了一些反爬技术 。例如:参数的加密 、AJAX异步加载JSON数据 。对于入门爬虫的新手来说 ,还是有一些挑战困难 。我在刚入门python爬虫时也对它束手无策,总是提醒说访问频繁,后来学会selenium模拟人工操作,...原创 2019-10-10 20:24:35 · 1115 阅读 · 7 评论 -
python爬虫 查询全国大学专业的录取情况
估计很多人在填报高考自愿的时候都会难以选择学校,有自己心仪的专业,但是在网上搜了半天也不能确定填哪一所学校。如果填了录取分数线低的,那将会浪费很多分数,表示有点遗憾。如果没有录取上,那就更遗憾了… 在我们想根据专业来选择学校的时候,往往会有很多学校无法被自己根据专业搜索到,但又很适合自己,全国那么多学校,大好的机会就只能完美错过了。所以,该怎么把全国所有带有该专业的学校和往年的录取分数线一起找出来...原创 2019-08-11 21:18:18 · 8604 阅读 · 4 评论 -
python爬虫 request+lxml爬取黄页88网企业信息
黄页88网: 简称黄页网或者黄页88,是由互联网资深人士创办于2009年11月。是一家整合企业黄页、分类信息以及时下流行的SNS社区三方面优势于一体定位于服务B2B平台的网站。主要帮助企业宣传推广公司品牌和产品,黄页88网精细划分了82个大行业分类,并且在每个大的分类下又进行了二级和三级行业细分,更加方便网友对所关注信息的查询和浏览,同时对企业发布的信息进行了整合分类更加方便企业对信息的管理和搜索...原创 2019-08-10 21:49:03 · 11155 阅读 · 1 评论 -
python BeautifulSoup爬取豆瓣电影top250信息并写入Excel表格
豆瓣是一个社区网站,创立于2005年3月6日。该网站以书影音起家,提供关于书籍,电影,音乐等作品信息,其描述和评论都是由用户提供的,是Web2.0网站中具有特色的一个网站。豆瓣电影top250网址:https://movie.douban.com/top250?start=0&filter=BeautifulSoup解析提取信息的具体过程请看BeautifulSoup爬取豆瓣电影top...原创 2019-07-15 22:10:52 · 4283 阅读 · 0 评论 -
没有网络怎么学网络爬虫之爬取智联招聘网python就业招聘信息存入Excel表格
没有网络可以练习网络爬虫?当然可以啦,但是必须先找个有网络的地方,打开你要爬取的网页,找的你要获取的内容,我将要在智联招聘网上获取招聘python的相关信息,如(工作名称、公司名称、薪资待遇、地址、经验、学历、公司性质、招聘人数、公司福利等)1、爬虫前步骤(1)找个有网的地方,打开需要爬取网页。(2)找到需要获取的内容。(3)保存源码到本地文件,我们没有必要全部保存,最好选取需要的部分进...原创 2019-07-20 23:39:50 · 903 阅读 · 2 评论 -
python xpath爬取豆瓣图书Top 250存入csv文件并解决csv乱码问题
我上次也分享过关于爬取豆瓣电影top250的实战:BeautifulSoup爬取豆瓣电影top250信息 和 python BeautifulSoup爬取豆瓣电影top250信息并写入Excel表格 ,豆瓣网没有反爬虫机制,对于学习爬虫的小白是一个不错的学习对象,python xpath我是初步学习,对豆瓣图书 Top 250 进行实战学习,xpath的优点之一就是可以直接复制获取信息的节点,如图...原创 2019-08-04 09:26:53 · 5157 阅读 · 8 评论 -
没有网络怎么学网络爬虫之BeautifulSoup爬取html表格存入Excel表格
学习网络爬虫当然是不可能一点网都没有的,我们前期需要网络打开自己需要的网页,获取网页上的源码保存在本地文件,就可以不用网络了,我家里的网络很差,我就是这样操作的,例如上节爬取智联招聘网步骤,下次访问的时候就不需要网络了,此次我就来将一下怎么用BeautifulSoup爬取本地html文件,并以贵州财经大学2017级的录取分数线表格信息为例讲解:操作思路1、找个有网的获取html源码保存为本地...原创 2019-07-27 22:40:06 · 1335 阅读 · 0 评论 -
Python 分别使用正则表达式,BeautifulSoup-find_all,select,lxml爬取猫眼电影榜单之放映口碑榜TOP10
榜单规则: 将昨日国内热映的影片,按照评分从高到低排列取前10名,每天上午10点更新。相关数据来源于“猫眼专业版”及“猫眼电影库”。网页地址: https://maoyan.com/board/7获取的内容: 排名,片名,主演,上映时间,评分1、分析网页需要获取的内容全部在<dd> ...</dd>这个标签中,获取里面的全部内容即可2、请求网页源码导入req...原创 2019-08-08 21:44:44 · 2092 阅读 · 1 评论 -
python爬取动态加载的网页之爬取猫眼电影实时票房
《猫眼电影实时票房》这个网页是通过动态加载的数据,大约4秒钟就要请求一次服务器,上面的数据每次请求都会产生变化,如果直接用requests请求它的html源代码,并获取不了它的数据。网页地址: https://piaofang.maoyan.com/dashboard?movieId=1211270需要爬取的内容有:猫眼排名,电影名称,综合票房,票房占比,排片场次,排片占比,场均人次,上座...原创 2019-10-24 06:25:44 · 3907 阅读 · 4 评论 -
selenium+lxml爬取京东商品信息
from selenium import webdriverfrom selenium.webdriver.common.keys import Keysfrom lxml import etreeimport timedriver = webdriver.Chrome()driver.get('https://www.jd.com/')global endPage#先定义一个全局变...原创 2019-08-19 07:41:02 · 610 阅读 · 2 评论 -
Python爬取智联招聘网之贵阳python求职信息
智联招聘(NYSE:ZPIN):为求职者提供免费注册、求职指导、简历管理、职业测评等服务的一个网站,它提供了丰富的求职信息,可以很快的查询到符合自己职位。如我查询贵州python职位需求的信息。智联官网: https://www.zhaopin.com/时间: 2019/08/09爬取内容: 职位名称,工作类型,公司名称,工资,地点,经验,学历,性质,规模,福利,发布时间等等。操作环境: ...原创 2019-08-09 21:42:43 · 1610 阅读 · 7 评论 -
python爬虫 requests+lxml爬取前程无忧网之模拟浏览器登录
import requestsfrom lxml import etreeurl = 'https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°...原创 2019-08-10 11:26:45 · 6631 阅读 · 1 评论 -
BeautifulSoup爬取豆瓣电影top250信息
豆瓣是一个社区网站,创立于2005年3月6日。该网站以书影音起家,提供关于书籍,电影,音乐等作品信息,其描述和评论都是由用户提供的,是Web2.0网站中具有特色的一个网站。网址:https://movie.douban.com/top250?start=0&filter=我将基于豆瓣电影top250讲解BeautifulSoup技术的爬虫,获取排名前250名的影片信息,包括(网站名称、...原创 2019-07-13 12:08:29 · 9649 阅读 · 8 评论