自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

云南省高校数据化运营管理工程研究中心的博客

云南省高校数据化运营管理工程研究中心团体博客

原创 Python删除指定行数据

Python小点点儿 按列条件筛选、删除DataFrame的行 遇到清洗数据的问题,需要把某一列中为指定元素的数据,整行去除 尝试了drop却不能到达理想的效果, isin效果理想。 import pandas as pd df = pd.DataFrame({"key&quo...

2018-12-23 21:26:07 2222 2

原创 Python 对数据one-hot编码

目录 离散特征的编码分为2种情况: 连续变量的离散化处理 法1.标签的处理: 法2.计算指标/哑变量one-hot编码 结合pd.cut,处理连续变量 合并():要注意使用merge还是join 离散特征的编码分为2种情况: 1.我们在进行那些有大小关系的变量离散,小雨,中雨,大雨...

2018-09-25 12:05:08 283 0

原创 使用webdriver打开本地浏览器--python

webdriver有三种 1、firefox浏览器,geckodriver (firefox 47以上版本,需要下载第三方driver,即geckodriver) 2. chrome浏览器的chromedriver 3. IE的驱动IEdriver 起因:Selenium调用webd...

2018-07-30 20:33:42 645 2

原创 MacOS安装社区版Neo4j(图数据库)

知识图谱最近大热,Neo4j图数据库在这方面起到了很大的作用,也挺有意思的,安装它的时候走了不少弯路,在此分享Neo4j的安装过程。 Neo4j安装地址:https://neo4j.com/download-center/   ,我下载的是3.3.6的,都可以,然后就等着吧。   下载完...

2018-07-27 10:07:19 417 0

原创 XGBoost——机器学习(理论+图解+python代码)

目录 前言 一、集成算法思想 二、XGBoost基本思想 三、MacOS安装XGBoost 四、用python实现XGBoost算法 前言 在竞赛题中经常会用到XGBoost算法,用这个算法通常会使我们模型的准确率有一个较大的提升。既然它效果这么好,那么它从头到尾做了一件什么事呢?以...

2018-07-27 09:58:16 923 0

原创 决策树算法——机器学习(理论+图解+python代码)

目录 前言 一、基本流程 二、划分选择 1、信息增益 2、增益率 3、基尼指数 三、剪枝处理 1、预剪枝  2、后剪枝 四、连续与缺失值 1、连续值处理 2、缺失值处理 五、多变量决策树(*拓展) 前言 暑假打算吃透一本书叫《机器学习》,大家也亲切的叫它西瓜书,看完决...

2018-07-27 09:54:06 345 1

原创 DBSCAN聚类算法——机器学习(理论+图解+python代码)

一、前言 二、DBSCAN聚类算法 三、参数选择 四、DBSCAN算法迭代可视化展示 五、常用的评估方法:轮廓系数 六、用Python实现DBSCAN聚类算法 一、前言 去年学聚类算法的R语言的时候,有层次聚类、系统聚类、K-means聚类、K中心聚类,最后呢,被DBSCAN聚类算法...

2018-07-27 09:18:26 2735 1

原创 Python2.7爬虫——爬取微信公众号文章

今天跟着这篇博客抓取微信公众号文章练习了一下爬虫,运行成功。想和大家分享一下过程中出现的问题和解决方法。 运行环境 windows 7 + Pycharm2018 + Python 2.7 目录 目录 1.安装必要的Python包 1.1 关于下载selenium包 1.2关于下...

2018-07-26 17:02:42 2256 4

翻译 Pytorch 0.4.0入门

Pytorch 0.4.0 入门 最近在学习Pytorch深度学习库,今天和大家分享一下jcjohnson的Pytorch sample 学习心得以及在运行sample代码时自己对各行代码打的注释。 Pytorch的核心特性有两个:n维张量器(类似于numpy,但可以在GPU上运行);建...

2018-07-25 19:39:41 416 1

原创 Windows下python3.6:最最靠谱xgboost包安装、pytorch包安装教程

    最近一直在捣鼓各种python包的安装,先来说说xgboost这个超级烦人的小妖精~~~ 1.xgboost在python3下的安装     在网上搜索xgboost python安装等字样,会出来好多好多方法,经过多次尝试,大多数人推荐的pip云云是不靠谱的,反正本机尝试失败了。。。...

2018-07-23 15:00:58 594 0

原创 知识图谱(Knowledge Graph)

认识知识图谱        随着W3C在2007年发起的开放互联网数据项目(Linked Open Data)的火热,互联网上的数据正从杂乱的网页文本数据转变为包含大量描述实体之间丰富关系的数据万维网。在这个背景下,Google于2012年5月率先提出了知识图谱的概念,目的是将用户搜索的结果进行...

2018-07-20 14:46:27 1453 0

原创 python学习 文本特征提取(三) CountVectorizer TfidfVectorizer 朴素贝叶斯分类性能测试

系列目录 - python学习 文本特征提取(一) DictVectorizer shuihupo python学习 文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理 python学习文本特征提取(三) CountVectorizer Tfid...

2018-07-05 22:14:27 1193 0

原创 python学习 文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理

CountVectorizer TfidfVectorizer 中文处理 系列目录 - python学习 文本特征提取(一) DictVectorizer shuihupo python学习 文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理 ...

2018-07-05 22:12:54 2919 0

原创 python学习 文本特征提取(一) DictVectorizer

文章系列: python学习 文本特征提取(一) DictVectorizer shuihupo python学习 文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理 python学习文本特征提取(三) CountVectorizer TfidfVe...

2018-07-05 22:04:29 1145 0

原创 Keras利用卷积神经网络(CNN)识别手写数字(环境python3.5)

今天介绍如何利用卷积神经网络进行MNIST数据集的手写数字识别。我们要做的就是将手写数字图像(images)识别为数字标签(labels) 建模思路如下图: -### 目录 用 [TOC]来生成目录: 数据预处理 模型建立 评估模型准确率 进行预测 ...

2018-06-10 09:19:45 1849 1

原创 RNN(Recurrent Neural Network)循环神经网络

**RNN(Recurrent Neural Network)   在传统的全连接神经网络中,从输入层到隐藏层再到输出层,每一层之间的节点是无连接的,因为输入和输出是独立的,所以这种普通的神经网络对于序列数据的处理是无能为力的。而现实中,绝大多数的数据都是序列数据,比如音频、视频、文本等,都存在...

2018-06-09 14:39:05 1029 0

原创 神经网络之BP算法

     最近在学习《Deep Learning》这本书,书中在前馈神经网络、全连接神经网络以及卷积神经网络等内容中,都有提到反向传播算法,这一算法可以说是神经网络中求解参数比较核心的部分了。为了更好地理解神经网络工作的原理,认识反向传播在神经网络中的运算机制,在综合《Deep Learning》...

2018-06-07 09:58:08 720 0

原创 主题模型系列课程

主题模型系列课程讲解视频 ALS LFM隐语义模型 PLSI主题模型 EM算法1 EM算法2 LDA基础知识—共轭先验分布 LDA基础知识—Dirichlet 分布 马尔科夫链 mcmc与gibbs采样 gibbs与lda求解 逆变换采样和拒绝采样 GMM-HMM在语音识别...

2018-05-30 13:44:28 271 0

原创 零基础爬虫----python爬取豆瓣电影top250的信息

今天利用xpath写了一个小爬虫,比较适合一些爬虫新手来学习。话不多说,开始今天的正题,我会利用一个案例来介绍下xpath如何对网页进行解析的,以及如何对信息进行提取的。 python环境:python3.5 先看看网页的样子先看看网页的样子先看看网页的样子 豆瓣电影网站链接 我们下...

2018-05-19 21:20:55 5902 2

原创 美团点评2018春招自然语言处理方向

宝宝参加了2018美团的线上笔试,现改编题目一道: 美团编程题目简化版 小猪佩奇在探寻数字的奥秘,想要知道1到n的正整数排列起来一共有多少位数字。 例如:n为11的时候,1234567891011,一共13位,则输出13。n的的大小范围是1<=n&l...

2018-05-16 18:33:06 3026 0

原创 Windows中以Anaconda搭建虚拟环境,安装tensorflow(CPU版本)、keras教程

目录 目录 1.启动命令提示符 2.建立TensorFlow的Anaconda虚拟环境 3.可能遇到的各种坑~~ 4.启动jupyter notebook查看下载好的tensorFlow和Keras版本 本文演示环境为win10 在安装之前默认读者的电脑里已经成功安...

2018-05-10 20:42:13 4199 0

原创 百度AI 开放平台API调用

近来要了解自然语言处理方面的技术,拿百度API做个实验对,进行多次编码尝试最终成功调用。在本人博客百度API使用系列,使用python代码实现。涉及内容如下:1.    (一)百度AI 开放平台API调用之AccessToken获取2.    (二)百度AI 开放平台API调用之应用实践  代码修...

2018-04-18 18:05:22 2162 1

原创 win10下MYSQL的下载、安装以及配置超详解教程~~小白入

下载MYSQL 官网下载MYSQL5.7.21版本,链接地址https://www.mysql.com/downloads/。下载流程图如下: 进入官网点击Community,下载社区版。 找到MYSQL Community Server,点击下方DOWNLOAD,进入下载页面。 ...

2018-04-16 19:56:36 58548 49

原创 语音识别中GMM-HMM的相关知识

  本文讲阐述在语音识别中GMM-HMM的知识。其中包括了对GMM(Gauss Mixture Model)和HMM(Hidden Markov Model)的定义、原理及其算法的介绍。 GMM(高斯混合模型)   设有随机变量X,则混合高斯模型可以用下式表示: p(x)=∑k=1Kπn...

2018-03-22 11:42:04 470 0

原创 MCMC抽样与LDA参数求解

一、 MCMC抽样 也许读者会觉得诧异,为什么在一本介绍主题模型的书中却看到了抽样的知识?作者是不是偏题了? 答案当然是没有。 相信你应该听说过有一门课程叫做统计学,在这门课程中,抽样占据着举足轻重的地位。当统计学的研究者们想要了解一个总体的某些参数时,他们的方案是,先去抽样获得样本,通过样...

2018-03-09 16:56:58 412 0

原创 正则学习

正则使用当中用到的一些笔记: 匹配base64url的代码: a='/item/%E4%BA%92%E8%81%94%E7%BD%91' import re b=re.match("/item/(%[A-Za-z0-9]{2})+",a) if ...

2018-02-06 04:15:25 144 0

原创 利用fillder进行app爬虫

配置环境 按照这个装好filddler。然后可以观察你电脑和手机访问的所有url的请求。 https://jingyan.baidu.com/article/3a2f7c2e0d5f2126aed61175.html?qq-pf-to=pcqq.c2c 过滤url https://ww...

2018-02-06 04:08:58 3742 0

原创 windows10 安装mysql 以及遇到的各种问题解决方案

安装教程 我是按照这个教程来的,步骤很详细: http://blog.csdn.net/anndy_/article/details/51093326 但是在这个过程中遇到了各种问题,问题及其解决方案如下: msvcr120.dll丢失修复 方案一: 百度下载msvcr120.dll...

2018-02-06 02:24:14 3433 0

原创 主题模型简介视频----白锦

主题模型简介视频

2018-01-29 09:43:50 286 0

原创 git和码云使用教程(Windows二方法)

本Git和码云入门操作 一方面 简洁明了,忽略对简单的码云注册的演示,只做文字引导;另一方面,重点突出,对git链接码云容易采坑的地方,详细步骤。且本文有两种Git软件链接码云的方法,一种是窗口也代码输入;另一种是界面操作,各有千秋,欢迎“品尝”。   网上的各种Git和码云入门教程长短不一,...

2018-01-11 12:39:58 34480 3

原创 神经网络实现连续型变量的回归预测(python)

最近写论文时用到一个方法,是基于神经网络的最优组合预测,主要思想如下:在建立由回归模型、灰色预测模型、BP神经网络预测模型组成的组合预测模型库的基础上,利用以上三种单一预测模型的组合构成BP神经网络组合预测模型。(我是参考的参考这篇文章:路玉龙,韩靖,余思婧,张鸿雁.BP神经网络组合预测在城市生活...

2018-01-07 11:00:46 20992 16

原创 Beta-Binomial共轭和Dirichlet-Multionmail共轭(LDA基础知识视频)

Beta-Binomial共轭和Dirichlet-Multionmail共轭 l

2018-01-05 09:48:45 541 0

原创 在jupeyter_notebook中编写内容教程

1.将文件解压放入C:\Users\renjiantao目录下,按照自己电脑实际情况放入 2.Windows—所有程序—Anaconda2—Anaconda Prompt 3.在cmd黑窗口输入:ipython notebook 检查刚才拷贝的文件是否已经在里边(我的文件是pydata...

2018-01-04 21:36:32 286 0

原创 GMM-HMM在语音识别中的应用

1.语音识别系统的基本结构 2.涉及算法 3.GMM高斯混合模型 3.1高斯混合模型的基本概念   高斯混合模型是指具有如下形式的概率分布模型: p(y⏐θ)=∑k=1kαkϕ(y⏐θk)p(y\arrowvert\theta)=\sum_{k=1}^{k}{\alp...

2018-01-04 13:47:58 1084 6

原创 LDA前言知识

在 2003 年(准确地说应该是 2002 年)D. M. Blei1 提出的 LDA(Latent Dirichlet Allocation2)模型(翻译成中文就是——潜在狄利克雷分配模型),让主题模型火了起来。   LDA根据给定的一篇文档,推测其主题分布。通俗来说,人类根据文档生成过程写...

2017-12-31 22:02:53 192 1

原创 LDA基础知识系列 ---- (2)Dirichlet 分布

本节将从Beta分布出发,水到渠成的讲述Dirichlet 分布和Dirichlet-Multinomial共轭,对称Dirichlet 分布的相关内容。   理解LDA,可以分为下述5个步骤: 一个函数:gamma函数 四个分布:二项分布、多项分布、beta分布、Dirichlet分布...

2017-12-31 16:36:10 799 0

原创 LDA基础知识系列 ----(1)共轭先验分布

理解LDA,可以分为下述5个步骤: 一个函数:gamma函数 四个分布:二项分布、多项分布、beta分布、Dirichlet分布 一个概念和一个理念:共轭先验和贝叶斯框架 两个模型:pLSA、LDA 一个采样:Gibbs采样   本节以简单明了的叙述方式,讲述先验概率、似然函数、后...

2017-12-29 21:19:36 919 0

原创 主成分分析的方差最大,解析主成份为什么可以(二)

PCA最大方差理论+几何意义 转载请注明:云南省高校数据化运营管理工程研究中心博客http://write.blog.csdn.net/mdeditor#!postId=78932615 主成份为什么可以   经过主成分在压缩数据之后的数据(主成分得分数据),多个变量变为更少的综合变量,...

2017-12-29 16:09:35 5144 0

原创 基于隐语义模型的推荐系统

基于隐语义模型通过矩阵分解建立用户和隐类之间的关系,物品和隐类之间的关系,最终得到用户对物品的偏好关系。隐语义模型(LFM)假设我们想要发现 F 个隐类, 我们的任务就是找到两个矩阵 U 和 V。

2017-12-19 20:22:29 7408 1

原创 typora+pandoc:markdown文本转换成word(也可把word转换成markdown哦)

因为想把自己写的博客转换成word,博客是markdown格式,公式什么的又懒得在word里面敲第二遍。于是就找了个方法让.md文本与.doc文本转换。步骤如下1首先,下载typora,一路安装即可。网址为: http://www.softpedia.com/get/Internet/WEB-D...

2017-12-19 14:44:59 15416 8

提示
确定要删除当前文章?
取消 删除