Python
文章平均质量分 78
不愿秃头的阳某
入一行,爱一行,懂一行。
展开
-
python爬取‘前程无忧’任职要求,掌握最新技术
目录前言爬取案例前言最近想学点东西,又不知道学什么技术才有用,于是就有了一个想法,我把各大招聘网的任职要求都爬下来,然后做数据分析,看看哪些技术出现的频率多,最后我们把数据做成词云图展示出来,自然就知道最近比较火的技术是哪些了!实现这个功能要用到的技术:Scrapy请求网站爬取数据(当然你也可以不用Scrapy,通用爬虫一样能实现,只不过会麻烦一些)Xpath解析网页(当然你也可以用其他...原创 2019-12-03 16:32:00 · 1755 阅读 · 1 评论 -
django连接Mysql数据库(各种版本问题)
目录django连接mysqldjango.core.exceptions.ImproperlyConfigured: mysqlclient 1.3.13 or newer is required; you have 0.9.2AttributeError: 'str' object has no attribute 'decode'raise MigrationSchemaMissing("U...原创 2019-12-02 10:41:13 · 3027 阅读 · 0 评论 -
python实现词云图效果
目录分词库—jieba生成词云库—WordCloud什么是云词图,比如这种,就是由海量的词汇然后经过处理把出现出现词汇展示出来的一张图分词库—jiebajieba库是优秀的中文分词库安装jieba:pip install jieba支持三种分词模式:精确模式:试图将句子最精确地切开,适合文本分析;jieba.cut(s)—精确模式,返回一个可迭代的数据类型全模式:把句子中所有的可...原创 2019-12-01 19:42:04 · 4725 阅读 · 1 评论 -
Flask框架入门
目录Flask简介Flask简单入门Flask简介Flask 是一个轻量级的基于 Python 的 Web 框架,封装功能不及Django完善,性能不及Tornado,但是Flask的第三方开源组件比丰富(http://flask.pocoo.org/extensions/),其 WSGI工具箱采用 Werkzeug ,模板引擎则使用 Jinja2 。Flask也被称为 “microframe...原创 2019-12-01 18:59:07 · 478 阅读 · 0 评论 -
python爬虫框架Scrapy
目录Scrapy简介入门案例这是这篇博客的主要内容Scrapy简介Scrapy主要包括了以下组件:()引擎(ScrapyEngine)用来处理整个系统的数据流处理, 触发事务(框架核心)调度器(Scheduler)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么...原创 2019-11-18 23:27:49 · 1069 阅读 · 0 评论 -
Django创建app应用和admin模块
目录创建app应用使用admin模块创建app应用app是什么?用过IDEA的都知道,它创建好项目一个项目,在里面是不能再创建项目的,而只能创建我们的模块,所以就是一个项目底下有多个模块,而Django里面的app就相当于模块一样,一个Django项目底下有多个app,而它的功能就像java中的实体类,它一个app就代表了这个实体类的所有功能它每个文件的意思在思维导图上都写的很清楚了我...原创 2019-11-17 11:09:46 · 3371 阅读 · 2 评论 -
python爬虫之XPath(爬取51job招聘信息)
目录xpath简介爬取51job招聘信息xpath简介前面介绍了这么多种解析网页的方式,今天再来介绍一种xpath,XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。它可以确定元素在XML中的位置,同样我们也可以用它来获取dom节点在html中的位置,就可以便利我们爬取数据这是今天大概内容的简介我在这里也就不详细介绍XP...原创 2019-11-09 20:14:06 · 4780 阅读 · 6 评论 -
python学习目录,从入门到上手
这是我学习python的一套流程,从入门到上手一、Python入门、环境搭建、变量、数据类型二、Python运算符、条件结构、循环结构三、Python函数四、做一次综合练习,做一个控制台的员工管理"""需求:员工管理系统功能:1.添加员工信息2.删除员工信息3.修改员工信息4.查看单个员工信息5.查看所有员工信息6.退出技术:函数、数据类型(字典列表)、循环、条...原创 2019-11-07 19:19:21 · 58728 阅读 · 104 评论 -
python爬虫之BeautifulSoup(爬取猫眼TOP100、中国最好大学排行)
BeautifulSoup爬虫什么是BeautifulSoup是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。 它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。利用它我们不在需要编写正则表达式就可以方便的实现网页信息的提取。就像java实现爬虫一样有HttpClient+Jsoup,python中我...原创 2019-11-07 18:58:14 · 5833 阅读 · 0 评论 -
python爬虫之正则表达式(爬取妹子网图片)
目录正则表达式正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。今天我们就通过正则来筛选出我们需要的信息,让后爬取出来。因为如果需要用到正则,那么就需要对正则有一定的了解,这里只是带大家做个案例,想了解正则还是需要自己去了解妹子网:https://w...原创 2019-11-07 15:28:35 · 921 阅读 · 0 评论 -
python之selenium爬取数据(爬取airbnb房源信息)
目录selenium介绍案例selenium介绍Selenium是一个用于Web应用程序测试的工具,测试直接在浏览器中运行,就像真实用户所做的一样,目前流行的自动化测试就可以靠它来实现而自动化测试还需要用我们的webdriverWebDriver针对各个浏览器而开发,取代了嵌入到被测Web应用中的JavaScript。与浏览器的紧密集成支持创建更高级的测试,避免了JavaScript安全...原创 2019-11-06 16:57:11 · 3682 阅读 · 2 评论 -
python爬虫、反爬虫的一些概念以及爬取豆瓣TOP250页面
目录爬虫、反爬虫的一些概念这张思维导图就是篇博客要讲的所有东西了爬虫、反爬虫的一些概念Robots协议既然我们要学爬虫,那么首先就需要先了解robot协议是什么?robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的...原创 2019-10-17 15:42:22 · 2215 阅读 · 2 评论 -
python模块、包、文件、异常和高阶函数
目录模块包(package)异常文件高阶函数模块就相当于java中的.java文件,只不过Python中的模块不只包括类,还包括里面的函数,方法等一切导入模块的3种方法方式1:import 模块名方式2:from 模块名 import 功能(比如你某个具体的函数名)方式3:from 模块名 impor *定义模块,在我的myPackage包里面"""定义模块类(属性+方法)、函...原创 2019-09-19 16:05:06 · 307 阅读 · 0 评论 -
python之Django入门helloword实现
Django之helloword实现首先我们新建一个Django项目然后它自动会生成一些配置文件templates:模板目录setting.py:主配置文件urls.py:url路径文件wsgi.py:网络通信接口manage.py:Django管理主程序(启动服务就是靠它)然后新建一个py文件,helloword测试#coding=utf-8from django.ht...原创 2019-08-18 11:44:09 · 1087 阅读 · 1 评论 -
python操作Mysql(ModuleNotFoundError: No module named 'pymysql')
python操作mysql首先下载Mysql库:https://github.com/PyMySQL/PyMySQL下载好在进入文件夹shift+鼠标右击进入cmd命令,输入python setup.py install这就已经安装好了pymysql然后进入pycharm测试操作一下pymysql是否能够连接import pymysqlprint("================...原创 2019-08-18 09:30:04 · 20572 阅读 · 1 评论 -
python实现简易爬虫
python实现简易爬虫话不多说先上代码import requestsfrom lxml import htmlurl='https://movie.douban.com/' #需要爬数据的网址page=requests.Session().get(url)tree=html.fromstring(page.text)result=tree.xpath('//td[@class="t...原创 2019-08-12 21:18:39 · 608 阅读 · 0 评论 -
检测Django是否安装成功
检测Django安装是否成功1、首先输入python查看版本号进入操作----python2、然后再导入Django----执行命令:import django,没有报异常就继续查看版本号,执行:django.get_version(),能看到版本号就成功了...原创 2019-08-12 19:26:31 · 8808 阅读 · 0 评论