fpzRobert-CSDN博客

原创【命名实体识别(NER)】(1)：命名实体识别综述

命名实体识别综述什么是命名实体识别？命名实体识别（Named Entity Recognition，简称NER），又称作**“专名识别”，是自然语言处理中的一项基础任务，应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体**，通常包括人名、地名、机构名、日期时间、专有名词等。通常包括两部分：实体的边界识别确定实体的类型（人名、地名、机构名或其他）NER系统就是从...

2019-03-23 09:41:44 44581 7

原创关键词提取算法概述

关键词提取概述概念关键词是指能反映文本主题或者主要内容的词语。关键词提取是NLP领域的一个重要的子任务。在信息检索中，准确的关键词提取可以大幅提升效率；在对话系统中，机器可以通过关键词来理解用户意图；在自动文摘、文本分类中，关键词的发现也非常有帮助。关键词提取方法概述关于文本的关键词提取方法分为：有监督的关键词抽取算法半监督的关键词抽取算法无监督的关键词抽取算法有监督的关键词抽...

2019-01-22 09:23:10 5404

文章目录Maven是什么Maven核心特性Maven安装配置下载Maven安装Maven解压Maven压缩包配置环境变量验证是否安装成功配置Maven配置本地仓库位置配置镜像Maven项目的标准结构Maven的依赖管理坐标Maven仓库Maven常用命令组合指令Maven指令的生命周期Clean Lifecycle：清理生命周期Default Lifecycle：默认生命周期Site Lifecycle：站点生命周期Maven依赖范围管理什么是依赖范围都有哪些依赖范围以及这些依赖范围的作用范围Maven依赖

2022-03-04 16:13:15 1427

原创【java资深研发工程师系列】集合体系详解（二）：List详解和源码剖析

本文基于JDK1.8讲解。前言如何看源码？看继承结构：看这个类的层次结构，处于什么位置，承担什么角色。看构造方法：首先要学会如何使用这个类。看常用方法：看源码无法一蹴而就，一口吃下一个大胖子，平时工作中经常用到什么方法，就去看看这个方法的功能是如何实现的。数据结构初探-数组和链表数组Java 语言中提供的数组是用来存储固定大小的同类型元素。优点：存取速度快。缺点：数组的大小在创建后便确定，无法扩容；插入删除元素很慢，效率很低；空间通常是有限制的；需要大块连续的内存块；.

2022-02-24 10:28:53 268

原创【java资深研发工程师系列】集合体系详解（一）：概览

为什么要使用集合？java是一门面向对象语言，为了便于存储和处理对象，就需要一个合适的容器，而缓冲区、数组等具有很大的局限性，所以集合（Collection）横空出世。集合和数组有啥区别？集合数组长度长度可变长度固定存储的内容可以存储不同类型的元素（一般不建议）存储的是同一种类型的元素元素的数据类型集合只能存储引用类型（即便存储基本类型，也会自动封装成包装类）可以存储基本数据类型,也可以存储引用类型java集合框架作用和本质主要作用：存储对

2022-02-18 11:05:22 242

原创【中文文本分类实战系列】朴素贝叶斯实现THUCNews文本分类

中文文本分类实战持续更新THUCNews数据集数据集下载THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。数据预处理特征工程模型训练模型...

2020-06-06 08:47:06 5438 5

原创【机器学习算法笔记系列】朴素贝叶斯（NB）算法详解和实战

朴素贝叶斯(NB)算法概述朴素贝叶斯（Naïve Bayes, NB）算法，是一种基于贝叶斯定理与特征条件独立假设的分类方法。朴素：特征条件独立；贝叶斯：基于贝叶斯定理。属于监督学习的生成模型，实现简单，并有坚实的数学理论（即贝叶斯定理）作为支撑。在大量样本下会有较好的表现，不适用于输入向量的特征条件有关联的场景。朴素贝叶斯算法原理贝叶斯定理条件概率：就是事件 AAA在另外一个事件BBB...

2019-05-07 16:12:20 23383 2

原创【深度学习笔记系列】卷积神经网络(CNN)详解

博主声明该深度学习笔记系列为个人学习笔记整理。内容来源于网上的大牛和机器学习专家所无私奉献的资料，仅供学习交流，非商用。具体引用的资料请看参考文献。具体的版本声明也参考原文献，有部分参考资料没有给出来源，请各位原博主理解，如果涉及侵权，请联系博主删除。本人才疏学浅，整理总结的时候难免出错，此属于第一版本，若有错误，还需继续修正与增删。如果博主有未注意的错误，还望各位前辈不吝指正，谢谢。...

2019-04-03 09:11:44 7943

原创【机器学习算法笔记系列】支持向量机(SVM)算法详解和实战

支持向量机(SVM)算法概述支持向量机（support vector machines，SVM）是一种二分类模型，它的目的是寻找一个超平面来对样本进行分割，分割的原则是间隔最大化，最终转化为一个凸二次规划问题来求解。由简至繁的模型包括：当训练样本线性可分时，通过硬间隔最大化，学习一个线性可分支持向量机当训练样本近似线性可分时，通过软间隔最大化，学习一个线性支持向量机当训练样本线性不可分时...

2019-04-01 22:04:35 81748 4

原创【机器学习算法笔记系列】决策树(Decision Tree)算法详解和实战

决策树(Decision Tree)算法算法概述本文主要介绍机器学习中的决策树模型。决策树模型是一类算法的集合，在数据挖掘十大算法中，具体的决策树算法占有两席位置，即C4.5和CART算法。决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种，分类树对离散变量做决策树，回归树对连续变量做决策树。同时也特别适合集成学习比如随...

2019-03-31 09:10:04 33421 1

原创【机器学习算法笔记系列】逻辑回归(LR)算法详解和实战

逻辑回归(LR)算法概述逻辑回归（Logistic Regression）是用于处理因变量为分类变量的回归问题，常见的是二分类或二项分布问题，也可以处理多分类问题，它实际上是属于一种分类方法。逻辑回归算法原理预测函数和决策边界逻辑回归的预测函数可以表示为：举一个例子，假设我们有许多样本，并在图中表示出来了，并且假设我们已经通过某种方法求出了LR模型的参数（如下图）：这时，直线上方所...

2019-03-29 12:38:27 12123

原创【机器学习算法笔记系列】线性回归算法详解和实战

线性回归算法算法概述在统计学中，线性回归(Linear Regression) 是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是由一个或多个称为回归系数的模型参数的线性组合而成。回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量...

2019-03-27 10:15:39 1537

原创【机器学习算法笔记系列】K-近邻(KNN)算法详解和实战

【机器学习算法笔记系列】KNN算法详解和实战KNN算法算法概述K最近邻(K-Nearest Neighbor, KNN)算法，是著名的模式识别统计学方法，在机器学习分类算法中占有相当大的地位。它是一个理论上比较成熟的方法。既是最简单的机器学习算法之一，也是基于实例的学习方法中最基本的，又是最好的文本分类算法之一。算法原理：“近朱者赤近墨者黑”KNN的输入是测试数据和训练样本数据集，输出是...

2019-03-24 19:26:23 3730

原创数据挖掘、机器学习、自然语言处理Python工具包(持续更新)

数据挖掘、机器学习、自然语言处理Python工具包(持续更新)科学计算Python包NumpyNumpy中文学习文档Numpy官方文档Numpy是一个功能强大的Python库，主要用于对多维数组执行计算。Numpy这个词来源于两个单词-- Numerical和Python。Numpy提供了大量的库函数和操作，可以帮助程序员轻松地进行数值计算。这类数值计算广泛用于以下任务：机器...

2019-03-22 18:20:21 734

原创一文了解Python Scrapy爬虫框架

一文了解Python Scrapy爬虫框架一、爬虫定义网络爬虫（Web crawler）：是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，它们被广泛用于互联网搜索引擎或其他类似网站，可以自动采集所有其能够访问到的页面内容，以获取或更新这些网站的内容和检索方式。从功能上来讲，爬虫一般分为数据采集，数据处理，数据存储三个部分。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的...

2019-03-10 17:00:36 504

原创快速理解机器学习中的偏差与方差

快速理解机器学习中的偏差与方差偏差与方差偏差（bias）：偏差度量了学习算法的期望预测与样本真实结果的偏离程度，即刻画了学习算法本身的拟合能力。方差（variance）：方差度量了同样大小的训练集的变动导致的学习性能的变化，即刻画了数据扰动所造成的影响。噪声（noise）：噪声表达了在当前任务上学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度。偏差和方差的形象展示如下...

2019-03-05 15:32:59 845

原创浅谈Python内存管理机制

Python内存管理机制python的内存管理分为三个方面：引用计数垃圾回收内存池机制变量与对象变量：通过变量指针引用对象，变量指针指向具体对象的内存空间，获取对象的值。对象：类型已知，每个对象都包含一个头部信息（类型标识符和引用计数器）。 <!--注意：变量名没有类型，类型属于对象（因为变量引用对象，所以类型与对象保持一...

2018-12-20 15:55:59 529

原创 kafka基础知识梳理

Kafka基础知识背景在大数据中，使用了大量的数据。关于大数据，主要有两个主要挑战。第一个挑战是如何收集大量数据，第二个挑战是分析收集的数据。为了克服这些挑战，需要使用消息传递系统。Kafka专为分布式高吞吐量系统而设计。 Kafka倾向于非常好地取代传统的信息中间服务者。与其他消息传递系统相比，Kafka具有更好的吞吐量，内置分区，复制和固有容错功能，因此非常适合大型消息处理应...

2018-12-17 14:23:35 563

原创 Newspaper3k框架：文章的抓取和管理

Newspaper是一个python3库。注：Newspaper框架并不适用于实际工程类新闻信息爬取工作，框架不稳定，爬取过程中会有各种bug，例如获取不到url、新闻信息等，但对于想获取一些新闻语料的朋友不妨一试，简单方便易上手，且不需要掌握太多关于爬虫方面的专业知识。这是 Newspaper 的github链接。这是 Newspaper文档说明的链接。这是 ...

2018-12-16 10:11:01 5926

原创利用xgboost算法对液压系统的状态进行预测并分析影响因素重要性

液压系统的状态监测算法-xgboost关于xgboost的原理网络上的资源很少，大多数还停留在应用层面，通过学习陈天奇博士的PPT地址和xgboost导读和实战地址，希望读者可以对xgboost原理进行深入理解。xgboost算法：用来评价各传感器之间的相关性，并且分析影响液压系统各部分（冷却系统、阀门状况、泵泄漏、液压蓄能器状况）的重要因素。本文利用xgboost算法对液压系统状态...

2018-12-01 13:07:57 3781 5

原创集成学习-Boosting和Bagging异同

集成学习-Bagging和Boosting异同集成学习（Ensemble Learning）集成学习（Ensemble Learning）有时也被笼统地称作提升（Boosting）方法，广泛用于分类和回归任务。它最初的思想很简单：使用一些（不同的）方法改变原始训练样本的分布，从而构建多个不同的分类器，并将这些分类器线性组合得到一个更强大的分类器，来做最后的决策。也就是常说的“三个臭皮匠顶个...

2018-11-24 16:37:22 1918