命名实体识别(1)——CRF

本文主要介绍一些命名实体识别(Name Entity Recognition,NER)相关的基本概念、发展历程和最新的研究进展,并着重介绍基于CRF的命名实体识别原理及实现。后续也会以BiLSTM-CRF、BERT-BiLSTM-CRF为例进行展开。 1.命名实体识别介绍 命名实体识别(Nam...

2019-06-09 22:38:44

阅读数 39

评论数 0

图数据库入门(1)——JanusGraph安装

最近因为在研究知识图谱,所以对目前比较流行的图数据库也进行了一番详细的研究,最终选定了JanusGraph(开源,适合集群化部署)和neo4j(只有社区版免费,适合数据规模不大的场景)。本文主要是尝试在单机环境下安装JanusGraph,并基于单机版JanusGraph对Gremlin(一种基于A...

2019-04-15 18:59:23

阅读数 46

评论数 0

Python爬虫(13)——根据地址获取经纬度并进行Geohash编码

本文主要介绍一下通过高德地图API接口,将指定的标准化地址转换成对应的经纬度,并进行Geohash编码。 首先,在高德开放平台(https://lbs.amap.com/api/webservice/guide/api/georegeo)申请key 然后,可以根据(https://lbs.am...

2018-12-04 18:50:21

阅读数 496

评论数 0

Python异常处理机制

在构建一个鲁棒性较强的python项目时,合适的异常处理机制,是相当重要的。本文主要介绍python异常处理机制的基本概念和常用的异常处理方法。 1.Python中常见的异常类 在python中使用异常对象来表示异常状态,并在遇到错误时引发异常。异常对象未被处理(或捕获)时,程序将终止并显示一...

2018-09-18 18:13:21

阅读数 177

评论数 0

sql常见函数

本文主要归纳整理一些在实际的取数过程中所用到的函数,以供以后参考。 1.字符串提取函数 (1)字符串截取 select substring("2018-08-14 13:14:00",1,4) as year ,substring("2...

2018-08-14 19:18:21

阅读数 171

评论数 0

PySpark学习笔记(7)——数据清洗

在正式建模之前,数据清洗和特征工程是必不可少的准备工作。其中,数据清洗是将杂乱的原始数据规整化的过程,本文主要介绍数据清洗中的一些小技巧: 1.正则表达式概述 正则表达式是对字符串操作的一种逻辑公式,是事先定义好的一些特定字符及这些特定字符的组合,这个组合可以用来表达对字符串的一种过滤逻辑。在...

2018-07-27 16:29:46

阅读数 843

评论数 0

Python机器学习(1)——异常点检测

本文主要介绍4种异常点检测方法,One-Class SVM(一分类向量机,非高斯分布)、EllipticEnvelope(基于高斯概率密度的异常点检测)、Isolation Forest(基于集成学习方法异常点检测)、LocalOutlierFactor(基于密度的局部异常因子),并基于同一数据集...

2018-05-31 17:06:48

阅读数 2932

评论数 0

Python邮件发送

本文主要介绍Python代码发送邮件的各种方式。

2018-05-21 19:04:55

阅读数 225

评论数 0

PySpark机器学习(4)——KMeans和GMM

本文主要在PySpark环境下实现经典的聚类算法KMeans(K均值)和GMM(高斯混合模型),实现代码如下所示:1.KMeans实现代码:%pyspark from pyspark.ml.clustering import KMeans from pyspark.ml.feature impo...

2018-05-07 15:30:27

阅读数 920

评论数 1

PySpark机器学习(3)——LR和SVM

本文主要在PySpark环境下实现LR和SVM算法,实现代码如下所示:1.LR实现代码:%pyspark from pyspark.sql import Row from pyspark.ml.linalg import Vectors from pyspark.ml.classificatio...

2018-05-03 16:52:46

阅读数 1487

评论数 0

PySpark机器学习(2)——GBDT

本文主要在PySpark环境中实现GBDT算法,实现代码如下所示:%pyspark from pyspark.ml.linalg import Vectors from pyspark.ml.classification import GBTClassifier from pyspark.ml....

2018-04-25 16:01:49

阅读数 1212

评论数 0

PySpark机器学习(1)——随机森林

本文主要在PySpark环境中实现随机森林算法:%pyspark from pyspark.ml.linalg import Vectors from pyspark.ml.feature import StringIndexer from pyspark.ml.classification i...

2018-04-23 18:37:36

阅读数 1027

评论数 0

PySpark学习笔记(6)——数据处理

在正式建模之前,需要非常了解建模所要用到的数据,本文主要介绍一些常见的数据观测和处理方法。 1.数据观测 (1)统计数据表中每一列数据的缺失率 %pyspark #构造原始数据样例 df = spark.createDataFrame([ (1,175,72,28,'M',100...

2018-04-11 16:14:11

阅读数 1825

评论数 0

PySpark学习笔记(5)——文本特征处理

今天有处理文本特征数据,刚开始因为不太熟悉pyspark环境下处理文本数据的流程,导致踩了不少的坑。在这里记录一下,以供以后参考。先写下整个处理的流程:(1)从数据库中提取数据(2)将提取的数据转换成DataFrame格式(3)使用tokenizer分词(4)将文本向量转换成稀疏表示的数值向量(字...

2018-03-30 18:24:23

阅读数 901

评论数 0

PySpark学习笔记(4)——MLlib和ML介绍

Spark MLlib是Spark中专门用于处理机器学习任务的库,但在最新的Spark 2.0中,大部分机器学习相关的任务已经转移到Spark ML包中。两者的区别在于MLlib是基于RDD源数据的,而ML是基于DataFrame的更抽象的概念,可以创建包含从数据清洗到特征工程再到模型训练等一系列...

2018-03-23 18:23:16

阅读数 1828

评论数 0

PySpark学习笔记(3)——DataFrame基本操作

DataFrame是一种分布在集群节点中的不可变的分布式数据集,这种数据集是以RDD为基础的,其被组织成指定的列,类似于关系数据库的二维表格和Python中的Pandas.DataFrame。DataFrame本身带有Schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和...

2018-03-15 16:36:32

阅读数 2040

评论数 2

PySpark学习笔记(2)——RDD基本操作

RDD(弹性分布式数据集)是一组不可变的JVM对象的分布集,这些对象允许作业非常快速地执行计算,是Apache Spark的核心。本文主要结合简单的例子介绍下RDD的基本操作。1.创建一个简单的RDD在PySpark中,有两种方式可以创建RDD,一种是用.parallelize()集合(元素lis...

2018-03-14 16:38:20

阅读数 899

评论数 0

PySpark学习笔记(1)

最近工作有需要用到PySpark,而自己对这方面还不太熟悉。有鉴于此,很有必要系统性的梳理下PySpark的基本语法和特性,以供以后参考。1.Spark简介Apache Spark是一个开源、强大的的分布式查询和处理引擎,最初由Matei Zaharia在UC Berkeley读博期间开发的[1]...

2018-03-09 10:48:58

阅读数 2157

评论数 0

自然语言处理入门(8)——TextRank

TextRank是自然语言处理领域一种比较常见的关键词提取算法,可用于提取关键词、短语和自动生成文本摘要。TextRank是由PageRank算法改进过来的,所以有大量借鉴PageRank的思想,其处理文本数据的过程主要包括以下几个步骤:(1)首先,将原文本拆分为句子,在每个句子中过滤掉停用词(可...

2018-02-09 16:27:16

阅读数 5363

评论数 2

机器学习实践中应避免的七种常见错误

转载链接 :http://blog.csdn.net/mmc2015/article/details/47322121 在机器学习领域,每个给定的建模问题都存在几十种解法,每个模型又有难以简单判定是否合理的不同假设。在这种情况下,大多数从业人员倾向于挑选他们熟悉的建模算法,本文作者则...

2018-01-31 11:34:08

阅读数 179

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭