python
文章平均质量分 50
qq_31258245
中南大学学生
展开
-
Python正则表达式中的常用符号
Python正则表达式中常用的符号简介正则表达式之所以叫做正则表达式,是因为他们可以识别正则字符串;源字一本书中的定义是:“如果你给我的字符串符合规则,我就返回它”,或者是“如果字符串不符合规则,我就忽略它”。Python正则表达式在编写网络爬虫代码时使用可能会极大提高效率。 其实正则表达式上手一点也不难,而且运行很快,通过一些简单的例子就可以轻松地学会。下面通过对一个邮箱地址的识别来帮助学习理解原创 2017-11-28 22:25:46 · 4022 阅读 · 0 评论 -
Python实现Restful API
Python实现Restful API最近写了一个网络验证登录的爬虫,需要发布为Rest服务,然后发现Flask是一个很好的Web框架,使用Python语言实现。1. 安装flaskpip install flask2.编写简单的HelloWorldfrom flask import Flaskapp = Flask(__name__)@app.route('/')def index():原创 2017-12-27 21:13:27 · 12247 阅读 · 0 评论 -
Linux下源码安装Python
Linux下源码安装Python在官网下载对应版本的Pythonhttps://www.python.org/downloads/,选择下方的gzp文件 2.解压,配置安装目录tar -zxvf Python-3.5.2.tgzcd Python-3.5.2./configure --prefix=/usr/python3.编译,安装makemake install这个过程10-20原创 2017-12-27 21:05:21 · 387 阅读 · 0 评论 -
Python实现文章自动生成
Python实现文章自动生成 下面的Python程序实现了通过从网页抓取一篇文章,然后根据这篇文章来生成新的文章,这其中的原理就是基于概率统计的文本分析。 过程大概就是网页抓取数据->统计分析->生成新文章。网页抓取数据是通过BeautifulSoup库来抓取网页上的文本内容。统计分析这个首先需要使用ngram模型来把文章进行分词并统计频率。因为文章生成主要依据马尔可夫模型,所以使用了2-g原创 2017-12-07 17:42:31 · 29624 阅读 · 11 评论 -
教务系统抢课程序的思路
最近在学习Python爬虫处理表单登录的知识,就想到了拿学校的教务系统来试手。经过调查发现学校的教务系统登录有如下特点:有两个登录页面,一个页面是需要输入账号密码以及四位字符验证码,另一个页面只需要账号密码不需要验证码。两个登录页面表单提交的地址不一样,但是都需要encoded字段,然而encoded是经过js加密处理得到的复杂字符串。需要验证码的那个登录页面是当你提交表单的时候会先向服务器发原创 2017-12-08 13:54:03 · 18048 阅读 · 0 评论 -
Python爬取特朗普就职演讲稿,使用ngram模型进行数据清洗
利用Python爬取特朗普英文就职演讲稿,并使用ngram模型进行数据清洗处理 互联网络上数据十分丰富,我们可以利用网络爬虫技术轻松获取到这些数据,但是获取的数据往往不像我们学习爬虫时那样样式规范的数据。在网络数据采集中,不可避免地会遇到样式不规范的数据,而且无法对数据集进行挑剔,所以掌握数据清洗的方法十分必要。 本文主要内容是利用Python从网页上爬取格式混乱的英文讲稿,然后将数据进行清原创 2017-12-05 13:52:52 · 1939 阅读 · 1 评论 -
Python连接mysql数据库
Python连接mysql数据库 在使用python写爬虫做网络数据采集项目时常常使用Mysql数据库来存储数据,因为Mysql受众广泛,免费,开箱即用的特点。 要在Python中使用Mysql数据库,前提条件当然是先安装Mysql,Mysql具体的安装方法这里不多描述,可查看相关博客。 要进行Python和Mysql的整合,像Java那样需要借用JDBC连接桥。Python没有内置的原创 2017-12-03 23:33:57 · 450 阅读 · 0 评论 -
一些常用的pip命令总结
pip常用命令总结 pip install [package] 安装库 pip show [package] 显示包的详细信息 pip list 显示在虚拟环境中的库 pip freeze > requirements.txt 输出使用pip install 安装的库 pip install -r requirements.txt 安装requirements原创 2017-12-11 11:55:15 · 280 阅读 · 0 评论 -
Python虚拟环境virtualenv保存库文件
我们在使用Python做项目时,可能同时负责多个项目,或者想要打包某个项目及其关联的库文件时,会担心库之间有冲突,那么我们可以安装一个Python虚拟环境virtualenv。 当一个Python库不用虚拟环境安装时,实际上是在全局安装它。 1.安装虚拟环境工具virtualenvpip install virtualenv(可能需要管理员权限)2.创建虚拟环境virtualenv qzone3原创 2017-12-11 11:07:50 · 699 阅读 · 0 评论 -
Python存储csv文件
Python存储csv文件CSV(Comma-Separated Values),逗号分隔值,是存储表格数据的常用文件格式。其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。 Python提供有cs原创 2017-12-02 10:23:24 · 4675 阅读 · 0 评论 -
Python爬虫之下载媒体文件
Python爬虫之下载媒体文件在网络上存储媒体文件有两种方式:存储媒体文件的URL链接,把媒体文件下载到主机。 对于存储URL这种方式,既有优点也有缺点。优点:爬虫运行的很快,耗费流量少。 节省存储空间。 降低服务器主机负载。 代码编写更简单。缺点:内嵌在你网站或应用中的外站的URL链接是盗链,如果外站加了防盗链措施,那么就会引来麻烦。 如果链接的内容被改变后,你使用的链接很可能出乎意料的原创 2017-12-02 10:08:24 · 1162 阅读 · 0 评论 -
Python爬虫之从网站图片中抓取文字
本程序采用selenium和phantomjs爬取亚马逊图书详情页面,并且使用Tesseract OCR识别图书大图上的文字。 程序模拟了我们在浏览器上的操作过程。点击下方会触发页面的js弹出模态框,此时页面的dom会增加,然后点击模态框右边的图片可以进行切换,模态框上左边的图片会跟着进行变换。通过获取模态框左边的图片然后用OCR技术识别图片上的文字。 实现代码如下:import time原创 2017-12-08 15:55:23 · 6778 阅读 · 1 评论 -
Python爬虫之处理带Ajax、Js的网页
Python爬虫之处理带Ajax、Js的网页 现在很多网站的都大量使用JavaScript,或者使用了Ajax技术。这样在网页加载完成后,url虽然不改变但是网页的DOM元素内容却可以动态的变化。如果处理这种网页是还用requests库或者python自带的urllib库那么得到的网页内容和网页在浏览器中显示的内容是不一致的。那么我们这样就采集不到想要的结果。 为了解决这个问题,可以使用Se原创 2017-12-08 13:28:50 · 15683 阅读 · 0 评论 -
Python爬虫之表单和登录窗口采集
Python自带的urllib库实现了HTTP基本的GET功能,当我们想要实现比GET更多的事情时,那么就需要去寻找支持Python标准的第三方库了。 Requests库可以成为你的选择,它可以处理复杂的HTTP请求,cookie,header等内容,是一个第三方库。 可以使用Python包管理器,执行命令pip install requests安装Requests库。 浏览器的地原创 2017-12-08 13:04:13 · 5326 阅读 · 1 评论 -
Python爬虫之BeautifulSoup库函数解析
Python爬虫之BeautifulSoup库函数解析简介Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。 它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。它可以大大节省你的编程时间。安装安装Python的包管理器pip,然后执行以下命令pip install beautiful原创 2017-11-29 00:12:05 · 3660 阅读 · 0 评论 -
Python常用开发环境搭建
总结一些使用python过程中类库安装方法安装pipwget https://bootstrap.pypa.io/get-pip.pysudo python get-pip.py原创 2018-04-02 00:57:57 · 250 阅读 · 0 评论