python
文章平均质量分 81
爱吃串串的瘦子
程序写的棒,全凭代码浪
展开
-
python爬虫SSL: CERTIFICATE_VERIFY_FAILED解决方案
本文参考:https://blog.csdn.net/hudeyu777/article/details/76021573Python2.7.9 之后,当使用urllib.urlopen打开一个 https 链接时,会验证一次 SSL 证书。而当目标网站使用的是自签名的证书时就会抛出如下异常:<urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] ce...原创 2018-04-12 17:35:02 · 2702 阅读 · 0 评论 -
python学习笔记(一)数据处理
一、基础1.注释:#/''' '''2.标识符:首字符是字母和下划线3.数据类型:数、字符串、 列表【list】(元素支持修改)、abc=['my','you'] 元祖【tuple】(元素不支持修改)、cde=('my','you') 集合【set】(并交差)、&|! 字典【dictionary】(键:值){key1:value1,key2:value2}4.运算符5.缩进 建...原创 2018-06-11 13:51:06 · 31379 阅读 · 0 评论 -
决用 Anaconda 完美解 Python2 和 python3 共存问题
Python3 被越来越多的开发者所接受,同时让人尴尬的是很多遗留的老系统依旧运行在 Python2 的环境中,因此有时你不得不同时在两个版本中进行开发,调试。如何在系统中同时共存 Python2 和 Python3 是开发者不得不面对的问题,一个利好的消息是,Anaconda 能完美解决Python2 和 Python3 的共存问题,而且在 Windows 平台经常出现安装依赖包(比如 MySQ...转载 2018-05-16 16:51:52 · 539 阅读 · 0 评论 -
python 读取并显示图片的两种方法
python 读取并显示图片的两种方法在 python 中除了用 opencv,也可以用 matplotlib 和 PIL 这两个库操作图片。本人偏爱 matpoltlib,因为它的语法更像 matlab。一、matplotlib1. 显示图片import matplotlib.pyplot as plt # plt 用于显示图片import matplotlib.image as mpimg ...转载 2018-05-15 21:00:00 · 576 阅读 · 0 评论 -
python+gensim︱jieba分词、词袋doc2bow、TFIDF文本挖掘
一、jieba分词功能来源github:https://github.com/fxsjy/jieba1、主要模式支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词支持自定义词典 .2、算法基于前缀词典实现高...转载 2018-05-06 15:27:23 · 609 阅读 · 0 评论 -
TF-IDF及其算法
概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与...转载 2018-05-06 11:03:56 · 141 阅读 · 0 评论 -
PCA降维算法
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。当然我并不打算把文章写成纯数学文...转载 2018-05-03 21:18:42 · 217 阅读 · 0 评论 -
Windows下Python安装numpy+mkl,Scipy和statsmodels
一般来说,在Python中进行科学计算,numpy和pandas是必不可少的,pandas也依赖于numpy。如果安装了pip的话,直接pip install numpy就可以安装,但是scipy依赖于numpy+mkl,所以直接安装numpy没有Inter MKL也并没有用,建议是从http://www.lfd.uci.edu/~gohlke/pythonlibs/中下载对应的.whl文件,例如...转载 2018-04-25 20:04:42 · 892 阅读 · 1 评论 -
利用相似度推送文章
相似度使用算法:TF-IDF相似度使用的包:gesim/jieba相似度的计算步骤: 1)读取文档 2)对要计算的文档进行分词 3)对文档进行整理成指定格式,方便后续的计算 4)计算出词语的频率 5)【可选】对频率低的词语进行过滤 6)通过语料库(corpus从文本中提取出的语言材料)建立词典 ...原创 2018-05-09 19:54:53 · 690 阅读 · 0 评论 -
腾讯视频爬取评论
#腾讯视频爬取评论import urllib.requestimport reimport urllib.errorimport ssl #当使用urllib.urlopen打开一个 https 链接时,会验证一次 SSL 证书.全局取消证书验证ssl._create_default_https_context = ssl._create_unverified_co...原创 2018-04-12 20:24:41 · 707 阅读 · 1 评论 -
Python eval函数
转自:http://www.runoob.com/python/python-func-eval.html描述eval() 函数用来执行一个字符串表达式,并返回表达式的值。语法以下是 eval() 方法的语法:eval(expression[, globals[, locals]])参数expression -- 表达式。globals -- 变量作用域,全局命名空间,如果被提供,则必须是一个字典...原创 2018-04-12 20:23:45 · 188 阅读 · 0 评论 -
使用scrapy-redis构建简单的分布式爬虫
scrapy是python界出名的一个爬虫框架。Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 虽然scrapy能做的事情很多,但是要做到大规模的分布式应用则捉襟见肘。有能人改变了scrapy的队列调度,将起始的网址从start_urls里分离出来,改为从redis读取,多个客户端可以同时读取同一个redis,...转载 2018-04-22 17:07:14 · 180 阅读 · 0 评论 -
分布式爬虫
转载自:http://www.cnblogs.com/wupeiqi/articles/6912807.htmlscrapy-redis使用以及剖析scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能:scheduler - 调度器dupefilter - URL去重规则(被调度器使用)pipeline - 数据持久化...转载 2018-04-22 17:06:06 · 184 阅读 · 0 评论 -
python用tesseract-ocr做图像识别
#作者微信:2501902696from PIL import Imageimport pytesseract#上面都是导包,只需要下面这一行就能实现图片文字识别text=pytesseract.image_to_string(Image.open('denggao.jpeg'),lang='chi_sim')print(text)123456我们以识别诗词为例 下面是我们要识别的图片先...转载 2018-06-19 15:55:22 · 4551 阅读 · 0 评论