python
文章平均质量分 75
枯萎的海风
向来缘浅, 奈何情深, 彼此豆蔻,谁许谁地老天荒, 敌不过似水流年, 逃不过此间少年
展开
-
視覺相關
updating ….face_recognition 號稱最簡單的人臉識別api(python) 提供了 人臉定位和人臉比對這兩項功能,蠻好用的 注意安裝:pip install dlibpip install face_recognition原创 2017-12-08 21:51:46 · 532 阅读 · 0 评论 -
基于 flask 框架的模拟instagram 图片分享网站的开发 7 (爬虫机器人)
1. 前言我们之前使用flask实现了一个模拟instagram的图片分享网站的开发, 但是图片的更新需要用户上传, 但是由于用户比较少, 鉴于这个问题, 我们就考虑引入一个爬虫机器人, 自动的向web程序相关的数据库表项中写入数据。2. scrapy框架这里选用的是scrapy框架: 参考资料: 1.官方文档: http://doc.scrapy.org/en/latest/intro/tu原创 2016-07-24 23:20:03 · 1787 阅读 · 0 评论 -
使用requests+beautifulsoup模块实现python网络爬虫功能
1. 前言之前实现python的网络爬虫, 主要都是使用较为底层的urllib, urllib2 实现的, 这种实现方案显得比较原始, 编码起来也比较费劲, 尤其是提取信息的时候, 还得使用正则表达是匹配 (之前转载的一篇糗事百科的爬虫文章, http://blog.csdn.net/zhyh1435589631/article/details/51296734)。 我们这里采用requests +原创 2016-06-20 10:08:26 · 11671 阅读 · 0 评论 -
Python爬虫实战一之爬取糗事百科段子
点我进入原文需要注意的是, 距离作者的原文发布的时间有一段距离了, 糗百的html 代码发生部分变化, 因而 正则表达式模块需要自己重新根据实际情况进行编写~~Python爬虫实战一之爬取糗事百科段子大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧。那么这次为大家带来,Python爬取糗事百科的小段子的例子。首先,糗事百科转载 2016-05-02 16:02:21 · 2255 阅读 · 0 评论 -
python 爬虫实战 抓取学校bbs相关板块的发帖信息
1. 前言之前也因为感兴趣, 写过一个抓取桌面天空里面喜欢的动漫壁纸的爬虫代码。这两天突然看到有人写了这么一篇文章: 爬取京东本周热卖商品基本信息存入MySQL 觉得蛮有趣的, 正好临近找工作的季节, 就想着能不能写个爬虫, 把咱们学校bbs上面相关的板块里面的发帖信息给记录下来。2. 项目分析首先我们打开我们的目标网页http://bbs.ustc.edu.cn/main.html 结原创 2016-05-03 13:32:55 · 9774 阅读 · 5 评论 -
python 爬虫实战--登陆学校教务系统获取成绩信息
1. 前言之前写的爬虫都是不需要使用cookie的, 这次我们瞄上了学校的教务系统, 每次登陆都那么几个步骤好费劲啊, 写个爬虫直接获取成绩多好啊~~2. 项目分析首先, 我们的目标页面是: http://yjs.ustc.edu.cn/ 查看网页源码 我们发现我们框选出来的地址就是我们验证码的地址:http://yjs.ustc.edu.cn/checkcode.asp利用chrome原创 2016-05-03 21:28:03 · 18688 阅读 · 6 评论 -
Python爬虫模拟登录带验证码网站
点我进入原文Python爬虫模拟登录带验证码网站这篇文章主要介绍了Python爬虫模拟登录带验证码网站的相关资料,需要的朋友可以参考下爬取网站时经常会遇到需要登录的问题,这是就需要用到模拟登录的相关方法。python提供了强大的url库,想做到这个并不难。这里以登录学校教务系统为例,做一个简单的例子。首先得明白cookie的作用,转载 2016-05-03 21:32:34 · 10363 阅读 · 2 评论 -
用python爬虫抓站的一些技巧总结
点我进入原文用python爬虫抓站的一些技巧总结原文出处: observer 学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写google music的抓取脚本的,结果有了强大的gmbox转载 2016-05-03 21:36:22 · 1539 阅读 · 0 评论 -
pyspider 爬虫教程(一):HTML 和 CSS 选择器
点我进入原文pyspider 爬虫教程(一):HTML 和 CSS 选择器虽然以前写过 如何抓取WEB页面 和 如何从 WEB 页面中提取信息。但是感觉还是需要一篇 step by step 的教程,不然没有一个总体的认识。不过,没想到这个教程居然会变成一篇译文,在这个爬虫教程系列文章中,会以实际的例子,由浅入深讨论爬取(抓取和解析)的一些关键问题。在转载 2016-05-22 11:11:31 · 5387 阅读 · 0 评论 -
pyspider 使用过程中遇到的一些坑
1. 前言最近在玩爬虫, 使用最基本的urllib库来爬取静态网页的方法, 我们基本已经掌握了, 于是觉得应该整个框架玩玩, 于是看到了pyspider, 这是一个国内的大神写的一个框架, 非常好用, 不过毕竟新手, 使用的时候, 还是遇到不少问题, 这里做一个整理2. 练手项目我们这里选用的练手项目是 爬取 豆瓣电影上的电影信息, 作者给出教程我也转载了过来 http://blog.csdn.ne原创 2016-05-22 11:39:20 · 19907 阅读 · 1 评论 -
centos 6.5 更新 python 2.7.9
点我进入原文1. python 地址: https://www.python.org/ftp/python/2.7.9/2. 背景: 我们申请了科大云主机, 默认配置了 centos 6.5 的环境, 但是其中的python 只是2.6.6 , 这里将他更新到 2.7.9CentOS 6.X怎么更新Python2.7.x版本听语音转载 2016-07-17 12:10:45 · 1228 阅读 · 0 评论 -
基于 flask 框架的模拟instagram 图片分享网站的开发 2
1. 前言我们之前写过一篇博文http://blog.csdn.net/zhyh1435589631/article/details/51787577, 在那篇博文里面, 我们完成了instagram 网站开发的几个基本功能, 包括首页展示, 个人信息页面显示, 图片详情页面展示等。 而在这篇博文中, 我们将在这个基础上, 添加登陆注册, 导航栏优化, 注册邮件通知等功能的编写。2. 处理的基本流程原创 2016-07-08 00:18:03 · 1886 阅读 · 0 评论 -
使用sqlalchemy 辅助统计学生期末成绩
1. 前言今天老板甩过来一套这学期的数据采集课程的学生考试试卷, 让我统计一下分数, 那就统计呗。 结果, 突然发现, 考试试卷的出现顺序和学生信息表上的顺序是不一致的, 我们当然可以手工输入一下, 可是本人还是比较懒, 不喜欢玩这种无效劳动, 于是就想着, 能不能自动合并数据项呢?于是, 我们想到了数据库, 然后一整天都花在研究如何将数据导入到数据库中去, 这个问题上了。。。。。 弄完之后, 感原创 2016-06-22 22:00:10 · 1765 阅读 · 0 评论 -
【实验小结】cs231n assignment1 knn 部分
1. 前言这个是斯坦福 cs231n 课程的课程作业, 在做这个课程作业的过程中, 遇到了各种问题, 通过查阅资料加以解决, 加深了对课程内容的理解, 以及熟悉了相应的python 代码实现2. 具体实现部分2.1 knn 调用程序2.1.1 简单说明knn 算法原理非常简单, 我们之前也总结过一次: http://blog.csdn.net/zhyh1435589631/article/deta原创 2017-01-08 20:40:05 · 20527 阅读 · 13 评论 -
KNN 算法学习小结
1. KNN 算法小结这是一个分类的算法基于输入实例的学习, 是一种懒惰学习方式, 不需要进行任何训练 , 可用于 人脸检测, 手写数字识别等有一个非常形象的图: 算法描述: 为了判断未知实例的类别,以所有已知类别的实例作为参照选择参数K计算未知实例与所有已知实例的距离选择最近K个已知实例根据少数服从多数的投票法则(majority-voting),让未知实例归类为K个最邻近样本中最原创 2016-12-25 22:23:49 · 2469 阅读 · 0 评论 -
使用 sklearn 实现决策树
1. 基本环境安装 anaconda 环境, 由于国内登陆不了他的官网 https://www.continuum.io/downloads, 不过可以使用国内的镜像站点: https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/添加绘图工具 Graphviz http://www.graphviz.org/Download_windows.原创 2016-12-25 14:44:22 · 17572 阅读 · 7 评论 -
分类算法之决策树(Decision tree)
这篇文章主要介绍了 决策树的基本原理 以及 他的直观认识, 主要讲解了 ID3, C4.5 算法原理, 但是并没有涉及 CART 算法 (关于 CART 算法 可以参考http://www.tuicool.com/articles/VzM36z)点我进入原文3.1、摘要 在前面两篇文章中,分别介绍和讨论了朴素贝叶斯分类与贝叶斯网络两种分类算法。转载 2016-12-25 14:16:29 · 1051 阅读 · 0 评论 -
[学习笔记]cs231n 图像分类与KNN
1. 参考资料中文版: http://blog.csdn.net/han_xiaoyang/article/details/49949535 英文版: http://cs231n.github.io/classification/2. 一些理解这里本质上采用的是利用图像的曼哈顿距离 作为衡量图片相似度的依据, 但是, 很明显, 这种方式进行图像分类得到的误差是非常大的。为了均衡误差, 采用 K原创 2016-12-12 14:16:36 · 512 阅读 · 0 评论 -
64位Win7下编译Python3的计算机视觉库:OpenCV
点我进入原文=====【opencv3.1 + python 3.4.4 + vs2013 亲测可用】=====64位Win7下编译Python3的计算机视觉库:OpenCV 注:本文全原创,作者:Noah Zhang (http://www.cnblogs.com/noahzn/) OpenCV目前最新版是3.0.0 rc1,转载 2016-10-16 16:08:56 · 1973 阅读 · 0 评论 -
[实验楼]Python 实现火车票查询工具
1. 前言好久没有登录实验楼了, 发现实验楼开了一些很有意思的实验课。 就比如这个用 python 实现火车票查询的工具。2. 基本思想2.1 主要思路之前也从来没有想过这个怎么去实现, 预习了一下之后, 发现这个和我们的爬虫非常相像, 本质上就是爬虫的一个应用。2.2 学习到的知识点2.2.1 docopt用来解析命令行参数 https://github.com/docopt/docopt 我们原创 2016-10-05 22:02:19 · 38769 阅读 · 1 评论 -
【实验楼】Python 图片转字符画 学习记录
1. 前言以前一直觉得字符画非常牛逼,却又不知道怎么做, 今天正好看到实验楼上有这么一个实验介绍这个的做法, 虽然非常简单, 不过还是蛮好玩的呢 Python 图片转字符画2. 记录2.1 实现代码# coding:utf-8from PIL import Imageimport argparse#命令行输入参数处理parser = argparse.ArgumentParser()pars原创 2016-10-17 09:54:42 · 1879 阅读 · 0 评论 -
pyspider 爬取淘宝食品
1. 前言牛课网在组织一个编程之美的活动, 这次的题目是 http://www.nowcoder.com/discuss/18223?type=0&order=0&pos=2&page=1 正好是使用爬虫进行操作的。就想到使用pyspider写一下了。 pyspider的相关资料: http://docs.pyspider.org/en/latest/tutorial/2. 实现流程2.1 分原创 2016-11-06 13:04:42 · 2313 阅读 · 0 评论 -
scrapy 学习笔记1 爬取 www.dmoz.org 网站信息
1. 安装配置具体的安装过程, 官网已经写的很清楚了http://doc.scrapy.org/en/latest/intro/install.html#windows不过在实际安装过程中还是遇到了一个小问题: ie, 缺少microsoft visual c++ 9.0 运行库, 上图中已经告诉我们了解决方法: 去到 http://aka.ms/vcpython27 下载相应文件即可原创 2016-05-27 14:00:57 · 3928 阅读 · 0 评论 -
利用selenium 实现对百度图片搜索中的图片的抓取
1. 前言我们一直非常希望可以抓取百度图片上的图片, 自打我们接触了 python的urllib 库之后, 我们就非常想爬些图片下来, 尤其是从百度图片上面, 在很久之前, 百度图片上的图片是不加密的, 分析他的静态网页源码可以直接提取得到图片的源地址信息 放在 obj_url 中, 当时, 我们还利用这点, 爬取过一些图片下来, 可以参考 http://blog.csdn.net/lerdor/a原创 2016-07-01 21:48:28 · 13612 阅读 · 0 评论 -
从0开始在腾讯云上部署一个 flask 项目
前言配置流程1 添加个人账户2 为个人账户添加sudo 权限3 添加科大的镜像源4 添加 python 和 pip5 安装 lnmpa 集成开发环境6 gunicorn安装7 flask 安装8 virtualenv 使用9 从仓库下载 flask 工程文件10 运行工程项目11 配置nginx 服务器脚本12 防火墙设置13 mysql 配置效果1. 前言今天腾讯云服原创 2016-07-18 22:58:25 · 16108 阅读 · 6 评论 -
python 2.7.11 + windows 10 连接 mysql学习记录
1. 前言最近在学习mysql 的相关内容, 于是考虑使用 python 去连接他, 学习一下之后发现, 使用python 去连接mysql, 真的好方便啊。2. 基本流程我们这里使用 3 种途径来连接 mysql, 分别是 connector, mysqldb, torndb ps: 我们这里选用的数据库表的格式为: ps: 图中的这个软件是 mysql workbench, 当然我们也可原创 2016-05-31 13:15:18 · 4001 阅读 · 1 评论 -
利用cgi 实现简易网页加法计算器功能
1. 前言最近在看python web 开发的一些内容, 正好看到了cgi, 这里做一些记录2. cgi 介绍全名是通用网关接口, 他可以由很多语言来实现, 只要这个语言可以进行基本的输入输出即可。 个人感觉是, 只需要这个语言可以输出 html 语言, 就可以用来编写 cgi。 cgi 的基本处理流程 [1]^{[1]}: ⑴通过Internet把用户请求送到web服务器。 ⑵web服原创 2016-05-29 11:04:59 · 2165 阅读 · 1 评论 -
Python2.7 + beautifulSoup 4.4.1 安装配置
1. 前言最近研究python 的爬虫功能, 正好看到beautifulsoup, 于是打算配置一下。2. 下载beautifulsoupbeautifulsoup4.4.13. 安装python setup.py buildsudo python setup.py install4. 错误处理但是报错了, 提示: python错误:ImportError: No module named s原创 2016-05-09 10:20:30 · 2744 阅读 · 0 评论 -
python 查找相应图片数据路径并调用exe程序
今天在处理实验室采集的图像数据的时候, 需要调用师兄的一个程序, 而师兄是将这个程序所需要处理的图片文件夹的路径写死在了exe文件里面, 导致每次计算一个文件夹中的图像数据的时候, 都需要重新编译一次, 非常费劲。 比较懒的我,于是想到, 是不是可以使用python, 将我所需要处理的图像文件夹提取出来, 然后把他们作为参数, 传递给师兄的程序呢? 于是我将师兄的exe程序重新编译了一下, 使他原创 2016-03-25 13:29:08 · 1257 阅读 · 0 评论 -
统计文件内数据 Python
python 是一门很简单的脚本语言, 不过很久没用了, 好多东西都忘得差不多了。正好昨天晚上,老板让测试相机的拍图时间, 于是我们连续抓取了200幅图像, 并他们的拍图时间间隔写入到了txt文件中。 使用C++一个while循环可以很容易的解决这个问题, 不过突然间想装逼, 练习下python的使用。 程序很简单, 就是要实现对文件内每行数据的读取, 计算他们的均值。 涉及python类的书原创 2016-03-21 09:01:49 · 1983 阅读 · 0 评论 -
Python笔记——类定义
点我进入原文一、类定义:class :类实例化后,可以使用其属性,实际上,创建一个类之后,可以通过类名访问其属性如果直接使用类名修改其属性,那么将直接影响到已经实例化的对象类的私有属性:__private_attrs 两个下划线开头,声明该属性为私有,不能在类地外部被使用或直接访问在类内部的方法中使用时 self.__private_attr转载 2016-03-21 09:08:14 · 351 阅读 · 0 评论 -
关于python文件操作
这篇文章中关于python的API记录蛮全的, 转过来方便自己查阅关于python文件操作总是记不住API。昨晚写的时候用到了这些,但是没记住,于是就索性整理一下吧:python中对文件、文件夹(文件操作函数)的操作需要涉及到os模块和shutil模块。得到当前工作目录,即当前Python脚本工作的目录路径: os.getcwd()返回指转载 2016-03-21 09:04:26 · 337 阅读 · 0 评论 -
python去除matlab文件中的空行
今天研究snake算法的时候,从网上copy了一份源码下来,matlab的。准备好好研究一下,可惜copy下来的代码中存在大量的空行,如图所示: 过多的空行严重影响代码的可读性,于是就想到了用python来解决这个问题,去除文件中的空行,这里思路很简单,就是读取每行内容,判断是否为空行,将不是空行的内容写入到新的文本中去。下面记录一下解决问题时候遇到的一些问题: 1.字符集问题: 由于原创 2015-06-08 18:00:13 · 2555 阅读 · 0 评论 -
python 实现endnote下载的pdf文件的整理
endnote下载的文件放在一个pdf文件夹中的一堆乱序数字的文件夹中如图 现在老板要求要把下载下来的文件发给他, 但一个个拷出来感觉有些蛋疼,于是就想到了python,通过查阅资料,完美实现了这个整理的功能,果然是python大法好2333333333333最终效果: 本人python菜鸟,写的不好的地方,请见谅#--------------------【classify.py】-----原创 2015-05-13 09:28:34 · 3006 阅读 · 3 评论 -
sqlalchemy 初步认识
1. 前言1.1 ORM 模型亦即对象关系映射, ie, 将关系数据库中的业务数据用对象的形式表示出来, 并通过面向对象的方式将这些对象组织起来, 最终在应用程序中创建一个“虚拟对象数据库”1.2 SQLAlchemy 架构稳定, 高性能 1.3 说明这里仅对 ORM层的操作做一些记录, core层未涉及2. 基本操作2.1 创建数据库引擎用下面这段代码可以创建一个 sqlite 的数据库, ps原创 2016-05-31 22:48:11 · 3400 阅读 · 0 评论 -
将ipdata.dat 数据集导入 mysql 中并获取sql文件
1. 前言最近在看极客学院的视频, 看到有关数据库部分, 然后里面的老师给了一个 ipdata.sql 的数据库指令, 可以用来向mysql中导入ipdata数据, 可是, 我们没有拿到这个 sql 数据库的指令, 因而没有办法构建出我们自己的数据库, 这个对于有些强迫症的我来说, 有些费劲2. 流程2.1 网上一般流程http://blog.csdn.net/yual365/article/det原创 2016-06-01 00:20:47 · 7382 阅读 · 0 评论 -
配置pycharm 5.0.3 工作环境
下载工具包:http://www.7down.net/soft/74882.html#comment汉化 1 下载PyCharm 5汉化包 2、将C:\Program Files (x86)\JetBrains\PyCharm 5\lib目录下的resources_en.jar文件复制出来,并更名为resources_cn.jar 3、双击打开resources_cn.ja原创 2016-05-17 23:27:13 · 4233 阅读 · 0 评论 -
基于 flask 框架的模拟instagram 图片分享网站的开发 6
昨天发布的版本中中文字符会出现乱码, 本地调试半天发现没有问题, 估计是数据库存在问题。 这次呢, 添加了邮件激活功能, 优化flash 显示特性, 以及保证首页初次加载的图片可以实现评论的异步加载。 邮件激活, flash 显示都是非常基本的功能, 不再多说了。这里讲一下首页图片的评论异步加载的实现思路: 由于我们首页的图片和评论都是通过 for 循环实现出来的, 他们有着相同的id, 在使原创 2016-07-12 15:33:15 · 962 阅读 · 0 评论 -
利用 python 对文件夹下图片数据进行批量改名
1. 前言我们最近在做一个使用flask 模拟 instagram 的图片分享网站, 需要一些基本的图片数据, 我们这里采用的是本地提供, 但是, 使用 爬虫从网上爬下来的图片, 名字都是乱七八糟的, 不利于编程, 这里就需要对他们进行批量改名操作。2. 基本思路使用python 的os 模块, 对文件夹进行遍历(listdir), 同时使用 rename 进行改名操作3. 实现效果4. 实现代码代原创 2016-06-30 10:36:37 · 16544 阅读 · 2 评论 -
使用flask框架实现一个简单的网页加法运算器
1. 前言最近在看Python web 开发的一些内容, 正好看到了flask, 这里做一些记录2. flask框架简要说明flask 是一个微型的web框架, 相比于 Django 集成了各种模块功能, flask 只是使用了简单的核心, 相关功能可以根据需要进行扩展3. 一些注意事项html 模板文件需要放置在templates文件夹下, 图片文件放在static文件夹下当遇到各种莫名其原创 2016-05-29 15:55:39 · 8078 阅读 · 1 评论