![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
文章平均质量分 79
lifetruth123
人生匆匆几十年,在青春洋溢的年纪,为未来而努力,怎能被质疑!
展开
-
python的GUI实战之有道翻译(借助百度AI语音合成)
学了一点python的GUI图形用户界面(用的是tkinter),借助所学的爬虫知识,做了个有道翻译的应用程序,界面不怎么好看,但是还是想给大家分享一下……文章目录1.GUI经典面向对象的写法2.爬取有道翻译3.百度AI语音合成4.生成桌面应用程序(exe)a.如何将.jpg(.png)图片文件转成icon文件b.生成exe文件常用命令5.代码汇总6.查看结果1.GUI经典面向对象的写法from tkinter import *class Application(Frame): def .原创 2020-06-08 16:00:34 · 636 阅读 · 0 评论 -
Python—使用分布式爬取网站信息
分布式爬虫(入门)实验目的:通过本台主机实现分布式爬虫,用分布式爬虫来爬取溴事百科每个段子的标题,后面会为大家介绍redis数据库的使用,分布式爬虫通常和redis数据库一起使用文章目录分布式爬虫(入门)1.分布式的介绍2.分布式的写法(服务端,客户端)3.通过分布式爬取网站信息实战4.查看结果1.分布式的介绍分布式爬虫就是将可以在多台电脑上运行,这样可以提高爬虫速度和效率,分布式是将起始任务定义在远端服务器上,可以同时多台电脑去取任务,进行爬取2.分布式的写法(服务端,客户端)我们可以用原创 2020-05-31 17:29:42 · 480 阅读 · 0 评论 -
Python—爬取并分析数据绘图发送到邮箱
实验目的:将51Job网上python不同职位的数量爬取出来,然后绘制成柱状图,发送到QQ邮箱文章目录绘图技术介绍绘图实例selenium爬取51Job网上的数据图片如何发送到邮箱项目代码汇总实验结果绘图技术介绍python爬取数据的时候,需要对一些数据进行分析整合,使数据可视化。绘图过程中,需要导入matplotlib模块,matplotlib是一个Python 2维绘图库,已经成为python中公认的数据可视化工具,通过matplotlib我们可以很轻松地画一些或简单或复杂地图形,几行代码即可.原创 2020-05-27 16:14:42 · 2038 阅读 · 0 评论 -
Python—将爬取到的51Job职位信息定时发送到QQ邮箱
文章目录1.导入schedule模块2.定时发送数据实例3.QQ邮箱开启SMTP服务和提取授权码的操作4.两大邮箱 SMTP 服务器及端口5.发送到QQ邮箱实例6.爬取51Job职位信息7.组合完成此项目8.项目结果1.导入schedule模块安装schedule模块:pip install schedule2.定时发送数据实例import scheduleimport timedef job(): print('您好!')schedule.every(2).minutes.do(j原创 2020-05-25 19:10:33 · 826 阅读 · 0 评论 -
selenium爬取拉勾网上详细信息(争对反爬虫机制)
当我们爬取拉勾网上信息时,会发现拉勾网设置了反爬虫,一般会出现以下情况,如果设置了动态UA以及完整的请求信息都无法获取,那么我们就可以使用selenium来获取详细信息(1)我们要先登录拉勾网。在获取爬虫信息期间,会弹出登录窗口,影响信息的爬取,所以要先登录。driver_path="F:\\Download\\chromedriver.exe"driver=webdriver.Chrome(executable_path=driver_path)url='http://www.lagou.c.原创 2020-05-22 00:12:58 · 507 阅读 · 1 评论 -
用scrapy将CSDN博主信息爬取并存入MongoDB
因为昨天学习了mongodb数据库,所以今天就来做个小小小项目!!目的是爬取csdn博主的信息(包括博主昵称,粉丝数,原创文章数,访问量,等级,排名等等),然后将爬取到的信息存入MongoDB。这20位博主中有没有大佬您呢?调皮一下哈哈哈哈哈哈哈现在开始做项目了……(1)创建一个csdn的爬虫文件(2)创建好爬虫文件后,在items.py中添加需要的字段# -*- coding: utf-8 -*-# Define here the models for your scraped item.原创 2020-05-16 23:27:10 · 240 阅读 · 0 评论 -
Python爬虫之scrapy下载小说《活着》余华
scrapy下载小说《活着》余华说:“人是为活着本身而活着的,不是为了活着之外的任何事物所活着”,小说《活着》是一本书写生命意义的书。我很喜欢看余华的《活着》,如果也有喜欢看这本小说的朋友们,请把它下载下来慢慢看,领略活着的意义。今天,我就用scrapy框架来爬取小说信息,只需要几秒钟就可以下载下来……(1)首先,创建一个小说的爬虫文件(2)在csw.py文件中获取小说每章的题目和内容import scrapyclass CswSpider(scrapy.Spider): nam原创 2020-05-12 17:01:07 · 694 阅读 · 0 评论 -
Python爬虫scrapy—ImagePipeline下载图片(入门)
ImagePipeline的使用今天我学习了scrapy框架中的ImagePipeline,因此我用ImagePipeline来下载图片,我下载的是SOL(中关村)桌面壁纸图片1. 找到要下载图片的url2. 创建一个图片项目3. 创建一个爬虫文件4. 在zol.py中写入图片的网址和名称# -*- coding: utf-8 -*-import scrapyclass ZolSpider(scrapy.Spider): name = 'zol' allowed_do原创 2020-05-11 23:33:05 · 598 阅读 · 0 评论 -
python框架—scrapy实例
Python爬虫框架—scrapy入门Scrapy是一个为了爬取网站数据、提取数据而编写的应用型框架,一个非常强大的爬虫框架。今天我们就来用scrapy框架爬取网站上的基本信息,我们要爬取的网站是西刺网,目的是爬取西刺网上的ip地址、端口号以及服务器地址使用scrapy框架的步骤:(1)下载scrapy(2)创建项目(3)创建爬虫文件我们要爬取的页面:下载scrapy框架(p...原创 2020-05-06 19:12:20 · 314 阅读 · 0 评论 -
selenium自动登录并爬取信息
selenium自动登录和爬取信息今天,我们引入selenium(web的自动化测试工具)来实现自动登录,我们要登录的是京东,并获取京东上面商品和图片的网址什么是selenium?selenium是web自动化测试工具,它可以直接运行在浏览器上,它支持所有主流的浏览器(包括Chromedriver等有界面的浏览器和PhantomJS这些无界面的浏览器),可以接收命令,让浏览器自动加载页...原创 2020-05-05 17:22:12 · 1729 阅读 · 0 评论 -
爬取学校教务网信息
Python爬取学校教务处的通知以西南大学为例,爬取西南大学教务处的相关通知去网上搜索西南大学教务处的官网爬取每个信息的标题和网址import urllib.requestimport refrom lxml import htmletree=html.etreeurl1=r'http://jwc.swu.edu.cn'res=urllib.request.urlope...原创 2020-05-02 13:55:43 · 674 阅读 · 0 评论 -
Python爬虫将数据存入SQL Server
Python爬取常用电话号码并将数据存入数据库今天我又学到一个新知识,就是将爬取到的数据存入数据库,刚开始学,弄了好久,希望这个小知识能帮助到更多的初学者!!!首先啦,我们要找到常用电话号码的网址,然后用正则表达式或者xpath来获取想要的名称和电话号码,今天我们主要讲的是如何将爬取到数据存入数据库第一、 导入第三方模块pymssql第二、 创建表Bimport pymssqld...原创 2020-05-01 15:16:09 · 5664 阅读 · 0 评论 -
爬取网上常用电话号码并写入Excel
Python爬取网上电话号码今天我们来做一个关于爬取电话号码并写入Excel的简单项目,希望这个项目能够对大家有所帮助,如果项目中有什么问题或者不足的地方,还希望各位大佬多多指教!!获取下面电话号码的网址(https://tel.911cha.com/)通过正则表达式获取每个名称和电话号码下载并引入xlsxwrite第三方模块代码如下:import req...原创 2020-04-30 22:43:39 · 1032 阅读 · 0 评论 -
Python—文字识别
Python识别车牌号要识别文字,首先要去百度AI去申请人工智能接口去网上搜索百度AI,点击百度AI开放平台点击文字识别中的通用文字识别,如图:点击开始使用创建应用,创建好了之后就会给我们一个APPID,API Key,以及Secret Key下载第三方模块要做的就是获取车牌号的文字代码如下:from aip import AipOcrimport reA...原创 2020-04-29 19:39:13 · 369 阅读 · 1 评论 -
爬取贴吧图片
Python爬虫之贴吧图片今天我们来爬取java吧的图片,开始写代码之前先要找到页面的url,以及对应图片的urlfrom urllib import requestimport urllibimport reimport timefrom lxml import htmletree=html.etree#https://tieba.baidu.com/f?kw=java&am...原创 2020-04-28 19:54:39 · 526 阅读 · 0 评论 -
Python爬虫获取音乐资源
Python爬虫下载音乐用爬虫下载音乐目的:分析要爬取的网站,将网站上的音乐下载到本地。我们这里用的是好听轻音乐网首先进入好听轻音乐官网,点击热播榜点击浏览器右上角,点击开发者工具,如图打开开发人员工具后,获取热播榜第一页(也就是前二十首歌曲)的网址,紧接着获取第二页、第三页的网址,寻找规律,第一页的网址为http://www.htqyy.com/top/music...原创 2020-04-27 15:34:09 · 661 阅读 · 1 评论