云南省高校数据化运营管理工程研究中心的博客

云南省高校数据化运营管理工程研究中心团体博客

Python删除指定行数据

Python小点点儿 按列条件筛选、删除DataFrame的行 遇到清洗数据的问题,需要把某一列中为指定元素的数据,整行去除 尝试了drop却不能到达理想的效果, isin效果理想。 import pandas as pd df = pd.DataFrame({"key...

2018-12-23 21:26:07

阅读数 88

评论数 0

Python 对数据one-hot编码

目录 离散特征的编码分为2种情况: 连续变量的离散化处理 法1.标签的处理: 法2.计算指标/哑变量one-hot编码 结合pd.cut,处理连续变量 合并():要注意使用merge还是join 离散特征的编码分为2种情况: 1.我们在进行那些有大小关系的变量离散,小雨,中雨,大雨...

2018-09-25 12:05:08

阅读数 108

评论数 0

使用webdriver打开本地浏览器--python

webdriver有三种 1、firefox浏览器,geckodriver (firefox 47以上版本,需要下载第三方driver,即geckodriver) 2. chrome浏览器的chromedriver 3. IE的驱动IEdriver 起因:Selenium调用webd...

2018-07-30 20:33:42

阅读数 216

评论数 1

MacOS安装社区版Neo4j(图数据库)

知识图谱最近大热,Neo4j图数据库在这方面起到了很大的作用,也挺有意思的,安装它的时候走了不少弯路,在此分享Neo4j的安装过程。 Neo4j安装地址:https://neo4j.com/download-center/   ,我下载的是3.3.6的,都可以,然后就等着吧。   下载完...

2018-07-27 10:07:19

阅读数 116

评论数 0

XGBoost——机器学习(理论+图解+python代码)

目录 前言 一、集成算法思想 二、XGBoost基本思想 三、MacOS安装XGBoost 四、用python实现XGBoost算法 前言 在竞赛题中经常会用到XGBoost算法,用这个算法通常会使我们模型的准确率有一个较大的提升。既然它效果这么好,那么它从头到尾做了一件什么事呢?以...

2018-07-27 09:58:16

阅读数 268

评论数 0

决策树算法——机器学习(理论+图解+python代码)

目录 前言 一、基本流程 二、划分选择 1、信息增益 2、增益率 3、基尼指数 三、剪枝处理 1、预剪枝  2、后剪枝 四、连续与缺失值 1、连续值处理 2、缺失值处理 五、多变量决策树(*拓展) 前言 暑假打算吃透一本书叫《机器学习》,大家也亲切的叫它西瓜书,看完决...

2018-07-27 09:54:06

阅读数 168

评论数 1

DBSCAN聚类算法——机器学习(理论+图解+python代码)

一、前言 二、DBSCAN聚类算法 三、参数选择 四、DBSCAN算法迭代可视化展示 五、常用的评估方法:轮廓系数 六、用Python实现DBSCAN聚类算法 一、前言 去年学聚类算法的R语言的时候,有层次聚类、系统聚类、K-means聚类、K中心聚类,最后呢,被DBSCAN聚类算法...

2018-07-27 09:18:26

阅读数 264

评论数 0

Python2.7爬虫——爬取微信公众号文章

今天跟着这篇博客抓取微信公众号文章练习了一下爬虫,运行成功。想和大家分享一下过程中出现的问题和解决方法。 运行环境 windows 7 + Pycharm2018 + Python 2.7 目录 目录 1.安装必要的Python包 1.1 关于下载selenium包 1.2关于下...

2018-07-26 17:02:42

阅读数 1036

评论数 0

Pytorch 0.4.0入门

Pytorch 0.4.0 入门 最近在学习Pytorch深度学习库,今天和大家分享一下jcjohnson的Pytorch sample 学习心得以及在运行sample代码时自己对各行代码打的注释。 Pytorch的核心特性有两个:n维张量器(类似于numpy,但可以在GPU上运行);建...

2018-07-25 19:39:41

阅读数 205

评论数 1

RDF、RDFS和OWL数据模型

引言        RDF、RDFS和OWL是W3C推荐的本体描述语言,也是知识图谱中数据的常用存储格式,它们都是基于XML(可扩展标记语言)编写的元数据(描述数据的数据),即用于计算机传输数据,让机器可理解,而不是面向用户展示的数据模型。 RDF(Resource Description F...

2018-07-24 17:44:36

阅读数 406

评论数 0

Windows下python3.6:最最靠谱xgboost包安装、pytorch包安装教程

    最近一直在捣鼓各种python包的安装,先来说说xgboost这个超级烦人的小妖精~~~ 1.xgboost在python3下的安装     在网上搜索xgboost python安装等字样,会出来好多好多方法,经过多次尝试,大多数人推荐的pip云云是不靠谱的,反正本机尝试失败了。。。...

2018-07-23 15:00:58

阅读数 171

评论数 0

知识图谱(Knowledge Graph)

认识知识图谱        随着W3C在2007年发起的开放互联网数据项目(Linked Open Data)的火热,互联网上的数据正从杂乱的网页文本数据转变为包含大量描述实体之间丰富关系的数据万维网。在这个背景下,Google于2012年5月率先提出了知识图谱的概念,目的是将用户搜索的结果进行...

2018-07-20 14:46:27

阅读数 879

评论数 0

本体(Ontology)概述

认识本体        本体(Ontology)的概念源自于哲学领域,在哲学中的定义为“对世界上客观事物的系统描述,即存在论”。哲学中的本体关心的是客观现实的抽象本质。而在计算机领域,本体可以在语义层次上描述知识,可以看成描述某个学科领域知识的一个通用概念模型。德国学者Studer在1998年给...

2018-07-20 14:39:02

阅读数 901

评论数 1

广义线性模型(GLMs)及算法介绍

一般我们了解的线性模型是针对连续性变量,并且服从正态分布的,但是在实际应用上显得非常的局限。因为我们我看到的数据很多都是离散的,而且不是服从正态分布的。针对这种情况,对传统线性模型进行推广,行成了现在的广义线性模型。广义线性模型使得变量从正态分布拓展到正态分布族,从连续型变量拓展到离散型变量,这就...

2018-07-08 18:45:47

阅读数 311

评论数 1

python学习 文本特征提取(三) CountVectorizer TfidfVectorizer 朴素贝叶斯分类性能测试

系列目录 - python学习 文本特征提取(一) DictVectorizer shuihupo python学习 文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理 python学习文本特征提取(三) CountVectorizer Tfid...

2018-07-05 22:14:27

阅读数 489

评论数 0

python学习 文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理

CountVectorizer TfidfVectorizer 中文处理 系列目录 - python学习 文本特征提取(一) DictVectorizer shuihupo python学习 文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理 ...

2018-07-05 22:12:54

阅读数 643

评论数 0

python学习 文本特征提取(一) DictVectorizer

文章系列: python学习 文本特征提取(一) DictVectorizer shuihupo python学习 文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理 python学习文本特征提取(三) CountVectorizer TfidfVe...

2018-07-05 22:04:29

阅读数 329

评论数 0

Keras利用卷积神经网络(CNN)识别手写数字(环境python3.5)

今天介绍如何利用卷积神经网络进行MNIST数据集的手写数字识别。我们要做的就是将手写数字图像(images)识别为数字标签(labels) 建模思路如下图: -### 目录 用 [TOC]来生成目录: 数据预处理 模型建立 评估模型准确率 进行预测 ...

2018-06-10 09:19:45

阅读数 406

评论数 0

RNN(Recurrent Neural Network)循环神经网络

**RNN(Recurrent Neural Network)   在传统的全连接神经网络中,从输入层到隐藏层再到输出层,每一层之间的节点是无连接的,因为输入和输出是独立的,所以这种普通的神经网络对于序列数据的处理是无能为力的。而现实中,绝大多数的数据都是序列数据,比如音频、视频、文本等,都存在...

2018-06-09 14:39:05

阅读数 372

评论数 0

神经网络之BP算法

     最近在学习《Deep Learning》这本书,书中在前馈神经网络、全连接神经网络以及卷积神经网络等内容中,都有提到反向传播算法,这一算法可以说是神经网络中求解参数比较核心的部分了。为了更好地理解神经网络工作的原理,认识反向传播在神经网络中的运算机制,在综合《Deep Learning》...

2018-06-07 09:58:08

阅读数 284

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭