自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

锅巴

一生只做一件事

  • 博客(121)
  • 资源 (1)
  • 收藏
  • 关注

原创 sklearn.feature_extraction.text中常见 Vectorizer 使用方法以及Tf–idf 值获取

对于在tf-idf进行关键字提取的过程中,Scikit-learn提供了TFIDF算法的相关函数,本文主要用到了sklearn.feature_extraction.text下的TfidfTransformer和CountVectorizer函数。其中,CountVectorizer函数用来构建语料库的中的词频矩阵,TfidfTransformer函数用来计算词语的tfidf权值。本部分参考自...

2019-07-12 18:16:21 5205

原创 错误集锦!

X = vectorizer.fit_transform(corpus)XAttributeError: 'list' object has no attribute 'lower'修改为:copus内格式为:

2019-07-12 17:33:09 522

转载 中文文本关键词抽取的三种方法(TF-IDF、TextRank、word2vec)

链接地址:https://github.com/AimeeLee77/keyword_extraction1、基于TF-IDF的文本关键词抽取方法词频(Term Frequency,TF)指某一给定词语在当前文件中出现的频率。由于同一个词语在长文件中可能比短文件有更高的词频,因此根据文件的长度,需要对给定词语进行归一化,即用给定词语的次数除以当前文件的总词数。逆向文件频率...

2019-07-12 16:11:43 24674 4

原创 word2vec

Word2Vec参考:http://yangapku.github.io/2016/05/11/gensim/model = Word2Vec(sentences, sg=1, size=100, window=5, min_count=5, negative=3, sample=0.001, hs=1, workers=4)1)sentences: 我们要分析的语料,可以...

2019-07-11 20:24:52 306 1

原创 维特比算法

维特比算法是用于隐式马尔科夫模型HMM解码算法的,但是它是一个通用的求序列最短路径(动态规划)的方法,不光可以用于HMM,也可以用于其他的序列最短路径算法,比如最优分词。维特比算法需要找到从Start到End之间的一条最短路径。对于在End之前的任意一个当前局部节点,我们需要得到到达该节点的最大概率δ,和记录到达当前节点满足最大概率的前一节点位置Ψ。P(生|人)=0.17(在“人”为...

2019-07-11 20:15:57 720

原创 基于word2vec使用wiki中文语料库实现词向量训练模型--2019最新

目录一、数据获取二、将xml格式数据转为txt三、繁体转为简体方法1---自己使用opencc库手动了1个转换程序,pip install opencc进行安装方法2---网上有一个exe应用程序进行转换,详情见:https://bintray.com/package/files/byvoid/opencc/OpenCC四、分词五、Word2Vec模型训练六、W...

2019-07-11 15:05:41 3361 5

原创 关键词提取算法

TF-IDF(Term Frequency - Inverse Document Frequency词频-逆文档频次)由TF算法以及IDF算法组成。TF算法:统计一个词在一篇文档内出现的频次,单词在文档中出现的次数越多,则其对文档的表达能力就越强。IDF算法:统计一个单词在文档集合中的多少个文档内出现过,其基本思想是(若单词在越少的文档中出现,则其对文档的区分能力也就越强)但是...

2019-07-09 11:07:02 1498

原创 中文自动分词---HanLP+jieba

HanLp主要功能包括分词、词性标注、关键词提取、自动摘要、依存句法分析、命名实体识别、短语提取、拼音转换、简繁转换等等。Github地址:https://github.com/hankcs/HanLP安装教程:https://mp.weixin.qq.com/s/RQ2o15Bm_6qEGEBj3YR_kQdemo地址:https://github.com/hankc...

2019-07-06 20:41:07 724

原创 数据分析---3-2 pandas数据可视化具体案例

目录例1、星巴克店铺统计1、如果我想知道美国的星巴克数量和中国的哪个多?2、中国每个省份星巴克的数量的情况3、国内星巴克数量排名前25的城市此处注意一个区别!!!4、使用matplotlib呈现出店铺总数排名前10的国家例2:911紧急电话统计1、请统计出出这些数据中不同类型的紧急情况的次数2、统计出不同月份不同类型紧急电话的次数的变化情况3、...

2019-04-07 17:11:33 2589 2

原创 数据分析---3-1pandas的使用

目录数据索引、赋值处理丢失数据、保存数据合并contanetingjoin拼接append追加数据merge合并相关操作handle overlapping解决重合问题,进行标记pandas plot数据可视化基础知识数据索引、赋值dates = pd.date_range('20190405', periods=6)df = pd.Data...

2019-04-06 12:02:36 285

原创 数据分析---2、numpy的使用

目录numpy读取数据数组拼接合成并标记numpy+散点图替换numpy中nan元素且不改变整体数组的中值numpy+直方图numpy读取数据import numpy as npus_file_path = "./US_video_data_numbers.csv"uk_file_path = "./GB_video_data_numbers.csv"...

2019-04-06 11:49:48 740

原创 数据分析---1、matplotlib的使用

首先,了解一下什么是matplotlib?matplotlib: 最流行的Python底层绘图库,主要做数据可视化图表,名字取材于MATLAB,模仿MATLAB构建目录折线图例1:气温岁时间变化折线图例2:多个折线图---走势问题直方图例1:250部电影时长的频率分布直方图例2:抽样统计后的数据直方图可由条形图体现条形图例1:内地电影票房前20...

2019-04-03 18:46:22 1209

原创 为何叫SVM支持向量机?及其有关求解实例

目录1、距离的计算2、数据标签的定义3、优化目标4、目标函数5、拉格朗日乘子法7、SVM求解8、求偏导SVM求解SVM求解实例为何叫支持向量机?实验现象:当支持向量没有变化,无论添加多少样本数据,对最终的决策边界是没有影响的。超详细版数学推导过程见:https://blog.csdn.net/Pit3369/article/details/889...

2019-04-02 11:02:10 1843 1

原创 SVM支持向量机超详细数学推导过程

SVM有三宝:间隔、对偶、核技巧(核函数)三个不同的分类算法:hard-margin SVM、soft-margin SVM、Kenel SVMSVM起初用来解决二分类问题

2019-04-01 21:00:42 5688 2

原创 第8章 验证码的识别---1、图形验证码的识别+2、极验验证码的识别

图形验证码一般是4位字母或者数字。这类验证码利用OCR识别技术识别。需要python库为tesserocr,其需要tesseract的支持,后者下载链接:https://github.com/tesseract-ocr/tesseract下载完成后,安装过程中,需要注意,要勾选:Additional language data download 选项来安装 OCR 识别支持的语言包。接下来...

2019-01-28 11:41:30 1318

原创 第7章 动态渲染页面的爬取---1、Selenium的使用

除了Ajax这种JavaScript动态渲染的页面外,还要一些,比如分页部分由JavaScript生成,并非原始HTML代码,还有的比如淘宝页面,即使是Ajax获取数据,但其接口含有加密参数,很难爬取。但是我们找到了:Selenium、Splash、PyV8、Ghost等,实现了可见即可爬取。Selenium,可以驱动浏览器进行点击、下拉等操作,还做到可见即可爬取。首先,安装Seleniu...

2019-01-26 19:36:13 349 1

原创 第6章 Ajax数据爬取

有些网页可以正常看到,但requests得到的页面却不一样。因为requests得到原始html文档,然而有些内容(比如Ajax)通过浏览器展示的是经过JavaScript处理数据后生成的结果。数据来源无非有下面几种:Ajax加载、包含在html文档内、经过JavaScript渲染。requests获得的就是包含在html文档内的,倘若遇到页面内容是经过JavaScript处理的结果呢?那么就需要...

2019-01-26 10:24:04 267

原创 第4章 解析库的使用---Beautiful soup

Beautiful Soup支持的解析器包括:HTML、XML和html5lib,但我们推荐使用lxml解析器,因为其解析器有解析HTML和XML的功能,速度快,容器能力强。from bs4 import BeautifulSoup# 使用时,将第二个参数设置为lxml即可;html是HTML字符串soup=BeautifulSoup(html,'lxml')#prettify()方法...

2019-01-24 17:36:35 648

原创 第4章 解析库的使用---Xpath

lxml、Beautiful Soup、pyquery三个解析库1、使用XPathXML Path Language,XML路径语言。举例://title[@lang='eng'],选择所有名称为title,属性lang的值为eng的节点。from lxml import etree# 导入lxml库中的etree模块html=etree.HTML(text)# 调用...

2019-01-21 22:10:27 334

原创 快速排序+改进版(邓俊辉老师讲授)

课程链接地址:https://www.bilibili.com/video/av22774520快速排序是另一个分而治之排序算法。归并排序的重点在于合并,快速排序的重点在于分。(红色为每一次选取的候选轴点)对于一个数组,起始为lo,结束为hi,轴点为pivot。通过每次选取不同的轴点,将轴点移动至某一位置,使得满足下述条件。那么如何分呢?重点在于寻找轴点轴点需要满足的条件:其左侧元...

2019-01-11 22:01:37 1576

原创 爬虫实践---新浪微博爬取+json+csv

在此之前,我一直以为新浪微博的爬取,需要模拟登录等等偶然之间,在小歪哥那里得知,有一个网站可以免登录爬取:https://m.weibo.cn/u/+oid,这个oid可以从普通新浪微博那里得到。点击一个关注用户首页,查看其网页源码,源码页搜索用户名,就会看到如下的内容:var $CONFIG = {};$CONFIG['islogin']='1'; $CONFIG['oi

2017-09-24 10:51:49 2680 1

原创 学习笔记(一)NumPy库

NumPy库安装:Linux系统(Ubuntu和Debian):sudo apt-get install python-numpy导入:import numpy as np1.ndarry---N维数组:NumPy库的心脏数组的维数和元素数量由数组的型(shape)来确定,数组的型由N个正整数组成的元组来确定,元组的每个元素对应每一维的大小。

2017-09-13 18:13:47 609

原创 爬虫实践---豆瓣短评+词云分析

电影页面:https://movie.douban.com/subject/26934346/热评:第一页:https://movie.douban.com/subject/26934346/comments?start=0&limit=20&sort=new_score&status=P第n页:https://movie.douban.com/subject/26934346

2017-09-08 16:21:48 1491

原创 爬虫实践---Selenium-抓取淘宝搜索商品信息

Selenium 是什么?一句话,自动化测试工具。它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器,如果你在这些浏览器里面安装一个 Selenium 的插件,那么便可以方便地实现Web界面的测试。主要用法参考:Selenium用法https://www.taobao.com 淘宝网首页,输入“美食”,跳转页面,获取页面信息,扣取需要信息进行输出或保

2017-09-05 19:59:28 3289 3

原创 爬虫实践---今日头条<街拍>图片

http://maoyan.com/board/4?offset=0

2017-08-15 08:51:00 1075

原创 爬虫实践---Scrapy-豆瓣电影影评&深度爬取

Link ExtractorsLink Extractors 是那些目的仅仅是从网页(scrapy.http.Response 对象)中抽取最终将会被follow链接的对象。Scrapy提供了 scrapy.linkextractors import LinkExtractor , 但你通过实现一个简单的接口创建自己定制的Link Extractor来满足需求。每个link e

2017-08-14 13:43:55 2067

原创 爬虫实践---Scrapy-爬取慕课网热门课程

访问的网站是:http://www.imooc.com/course/list?sort=pop首先我们创建一个Scrapy项目$ scrapy startproject mooc_subjectsNew Scrapy project 'mooc_subjects', using template directory '/home/pit-yk/anaconda3

2017-08-12 16:49:26 3437

原创 爬虫实践---正方教务系统爬取历年成绩

打开学校教务处官网,发现官网的地址其实是http://222.24.19.201/default2.aspx这次的爬虫既有账号密码登录,也有验证码和登录角色选择,有点难度了,搞了两天才搞定,看来还是才疏学浅了,通过这个博客将知识点已经坑点等方面进行总结,也是一个学习的过程。第一步,打开F12中的下面界面。通过登录一个错误账号,我们可以发现,Request URL:h

2017-08-10 13:34:17 3912

原创 爬虫实践---电影排行榜

哈哈!经过几天的学习,已经可以自己独立地慢慢的来写”蜘蛛侠“了,加油!电影网站:http://dianying.2345.com/top/首先对于网站进行浏览,查看一下网页大概信息。对于大体框架来看,电影有元素---海报,电影名称,上映时间,主演,故事简介。观察发现,电影排行榜在class=“picList clearfix"下进行展开的,每一个电影有一个li构成。

2017-08-03 16:32:12 1649

原创 爬虫实践---抓取小说网站

电子书网站:http://www.qu.la/paihangbang/ 对网页进行分析可知,                             玄幻奇幻排行                            武侠仙侠排行                            历史军事排行

2017-08-03 15:08:57 10002

原创 爬虫实践---抓取百度贴吧

贴吧地址 : http://tieba.baidu.com/f?kw=%E7%94%9F%E6%B4%BB%E5%A4%A7%E7%88%86%E7%82%B8&ie=utf-8 通过对贴吧URl地址进行分析,“utf-8”是编码格式,支持中文。当我们点击下一页时,url变为:http://tieba.baidu.com/f?kw=%E7%94%9F%E6%

2017-08-01 15:26:14 2211

原创 爬虫---正则表达式:re库

从’通配符‘到正则表达式玩linux的同学在bash里一定经常用下面这一段代码:rm -rf /*.txt这里其实就是一个非常简单的删除当前目录下所有txt文件的命令, ’*’号其实就一个 ‘通配符’。表示任何形式的数据。 从这里我们就可以引出正则表达式的概念:正则表达式是用来简洁表达一组字符串的表达式,或者你可以将它理解为高级版的 通配符 表达式举个例子:impo

2017-08-01 13:00:19 1232

原创 爬虫---BeautifulSoup库的解析器

bs4库之所以能快速的定位我们想要的元素,是因为他能够用一种方式将html文件解析了一遍 ,不同的解析器有不同的效果。网络爬虫的最终目的就是过滤选取网络信息,最重要的部分可以说是解析器。安装解析器$ apt-get install Python-lxml$ easy_install lxml$ pip install lxml使用lxml解析器来解释网页

2017-08-01 11:27:20 1520

原创 爬虫---Beautiful Soup库

Beautiful Soup 库一般被称为bs4库,支持Python3,是我们写爬虫非常好的第三方库。因用起来十分的简便流畅。所以也被人叫做“美味汤”。官方文档安装方式:$ pip install beautifulsoup4继续上一节中的pip list查看是否安装成功。简单使用:下面的一段HTML代码将作为例子被多次用到.这是 爱丽丝梦游仙境的 的一段内容(以后内容中简

2017-08-01 10:44:49 944

原创 爬虫---requests库

requests库本质上就是模拟了我们用浏览器打开一个网页,发起请求是的动作。它能够迅速的把请求的html源文件保存到本地。$ pip install requests简单又粗暴,可以使用一下语句查看安装情况:$ pip list密密麻麻中发现了它,requests (2.14.2)接下来,使用requests进行一个简单的操作,访问百度的index页面,并将其源码抓取

2017-08-01 10:14:25 846

原创 Linus---一个简单ls-l函数

/************************************************************************* > File Name: ls-l.c > Author: > Mail: > Created Time: 2017年07月14日 星期五 16时14分05秒 **************************************

2017-07-14 17:13:34 959

原创 Linux---stat函数以及自己实现stat

St_mode函数S_IFMT 0170000 文件类型的位S_IFSOCK 0140000 socketS_IFLNK 0120000 符号链接(symbolic link)S_IFREG 0100000 一般文件S_IFBLK 0060000 区块装置(block device)S_IFDIR

2017-07-14 17:08:46 2819

原创 Linux---lseek函数

1.lseek 函数① 获取文件大小② 移动文件指针③ 文件拓展---空洞文件空洞文件就是类似于迅雷下载文件时,任务一旦存在,就会在磁盘相应的位置存在一个与源文件大小一样的文件,但是此文件大小并不占据磁盘存储区。文件偏移量可以大于文件当前长度,在这种情况下,对该文件的下一次写将加长该文件并在文件中构成一个空洞。位于文件中但没有写过的字节都将被读为0. 起初编译产生错

2017-07-14 16:55:08 1014

原创 Linux---快捷键+文件相关操作

1.   命令解析器shell---Unix操作系统      命令解析器bash---Linux操作系统本质:命令解析器---根据命令名字,调应对应可执行程序。2.   Linux快捷键       命令和路径补充:Tab 两次tab显示所有可补充命令、路径1)    主键盘快捷键01.  历史命令的切换:                     History 

2017-07-14 11:54:46 1101

原创 Linux下read和write函数复制一个文件

Open 函数 返回值:若成功,返回未见描述符;若出错,返回-1 Path参数是要打开或创建文件的名字。Oflag参数可用来说明此函数的多个选项。下列一个或多个常量进行“或”运算构成oflag参数(这些参数在头文件中定义)必选项:O_RDONLY 只读打开O_WRONLY 只写打开O_RDWR 读写打开大多数情况下,将它们依次定义为0,1,2可选项:

2017-07-12 19:05:13 4449

chromedriver_linux64.zip

chromedrive

2017-08-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除