princemrgao-CSDN博客

原创机器学习：增量学习

机器学习-增量学习https://blog.csdn.net/suzyu12345/article/details/81461667

2020-10-21 10:32:49 939

原创 jieba分词和LAC分词词性对比表

jieba分词词性对照表词性编码词性名称注解 Ag 形语素形容词性语素。形容词代码为 a，语素代码ｇ前面置以A。 a 形容词取英语形容词 adjective的第1个字母。 ad 副形词直接作状语的形容词。形容词代码a和副词代码d并在一起。 an..

2020-07-23 11:20:04 3296

原创学习笔记(01):人工智能工程师（第21期）推荐系统方向-项目第一周

人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。本课程包括视觉方向和机器学习方向，在学习过程中，除针对知识点的编程作业之外，还提供了大量工业应用案例数据集，使学员能够积累丰富的工业实战经验。 ...

2020-05-11 17:25:55 224

原创 Mac关于报错Solving environment: failed with repodata from current_repodata.json

最近创建虚拟环境的时候conda create -n py37 python==3.7，怎么都不成功，报错如下：Solving environment: failed with repodata from current_repodata.json(base) gaoyudongdeMacBook-Pro:~ gaoyudong$ conda create -n py37 python=...

2020-04-23 13:17:35 42759 4

原创【机器学习】K近邻法算法(KNN)的简单理解

K近邻法(k-NearestNeighbor)是一种很基本的机器学习方法，能做分类和回归任务 1.1 KNN直观解释任务：预测最后一部影片的电影类型第一步：将训练集中的所有样例画入坐标系，也将待测样例画入第二步：计算待测分类的电影与所有已知分类的电影的欧式距离第三步：将这些电影按照距离升序排序，取前k个电影，假设k=3，那么我们得到的电影依次是《He's Not...

2020-04-08 14:09:29 825

原创【机器学习】模型评估那点事儿

1.1评估方法——如何切分数据： 1.1评估方法——如何切分数据：留出法（hold-out）：一部分为训练集，一部分为测试集。应尽量保证数据分布的一致性。交叉验证法（k-fold cross validation）：划分为k个互斥子集，用k-1作为训练集，剩下一个为测试集，最终每一个子集都会作为测试集，其余子集作为训练集，共进行k次建模，最终得到测试结果的均值。...

2020-04-08 14:07:04 144

原创 Jupyter Notebook错误：module 'dateutil.tz' has no attribute 'UTC'

问题描述：打开jupyter后，按路径打开文件，选择固定的kernel后，发现终端报如下错误Jupyter Notebook报错：module 'dateutil.tz' has no attribute 'UTC'解决：我使用的kernel是虚拟环境（名字:py36），进入虚拟环境中conda activate py36pip uninstall python-dateuti...

2020-04-08 14:02:21 2875

原创 Bagging思想的前世今生

随机森林的产生决策树容易过拟合，偏差低，方差高 --> 可以降低方差的方式：Bagging（Boostrap aggregating），每个分类器对样本进行随机取样在平均。--> 不仅对样本随机，对特征也随机，将多棵决策树进行融合，就是随机森林Bagging思想详解bootstrap样本：有放回的取样aggregating：对多个基学习器进行平均...

2020-04-02 15:12:12 954

原创一文读懂误差的偏差方差

偏差和方差的直观理解：偏差：描述的是预测值的期望与真实值之间的差距。偏差越大，越偏离真实数据，如下图第二行所示。方差：描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散，如下图右列所示。详解：蓝色点相当于真实数据，红圈相当于预测期望左上图：低偏差低方差，所有数据的聚拢在一起，极限思想，偏差为0，...

2020-04-02 13:36:35 5977

原创【百面机器学习】第一章特征工程

01特征归一化为什么需要对数值类型的特征做归一化？将所有的特征都统一到一个大致相同的数值区间内，以消除数据特征之间的量纲处理。归一化常用方法：线性函数归一化（Min-Max Scaling）对原始数据进行线性变换，使结果映射到[0,1]的范围，实现对原始数据的等比缩放。归一化公式如下：零均值归一化（Z-Score Normalization）将原始数...

2020-02-28 17:18:58 459

原创 python2升级python3：celery任务不执行

最近公司做python升级，celery任务始终不执行，也不输出日志。想了很多方式，最后锁定celery的配置项，果然按以下方式修改后就开始执行任务了。在celery4.0以后配置参数改成了小写，对于4.0以后的版本替代参数：4.0版本以下参数 4.0版本以上配置参数CELERY_ACCEPT_CONTENT accept_contentCELERY_ENA...

2019-08-05 15:25:23 1190

原创 fastText参数的含义

以fastText中的无监督训练函数为例，详细介绍各个参数的含义：from fastText import train_unsupervisedmodel = train_unsupervised(input, model='skipgram', lr=0.05, dim=100, ws=5, epoch=5, minCount=5...

2019-07-04 11:11:38 5697

原创 @staticmethod与@classmethod的作用与区别

1.一般来说，要使用某个类的方法，需要先实例化一个对象再调用方法。而使用@staticmethod或@classmethod，就可以不需要实例化，直接类名.方法名()来调用。这有利于组织代码，把某些应该属于某个类的函数给放到那个类里去，同时有利于命名空间的整洁。2.既然@staticmethod和@classmethod都可以直接类名.方法名()来调用，那他们有什么区别呢从它...

2019-06-11 11:46:55 91

原创 Numpy.random模块中shuffle与permutation的区别

函数shuffle与permutation都是对原来的数组进行重新洗牌（即随机打乱原来的元素顺序）区别:shuffle直接在原来的数组上进行操作，改变原来数组的顺序，无返回值。permutation不直接在原来的数组上进行操作，而是返回一个新的打乱顺序的数组，并不改变原来的数组。代码：a = np.arange(10)print anp.random.shuffle...

2019-06-11 10:49:04 169

原创主题模型LDA快速入门

lda主题模型一个应用场景：判断一篇新闻究竟属于哪类，比如科技，体育等。X:一篇文章 Y:分类直观解释：简历筛选：百度实习阿里实习着装有品位条纹衬衫笔试满分只穿杰克琼斯中国top2毕业自称top3毕业逃离创业泡沫的CTO 长相捉急......【特征】---组成--->【简历】---分成--->【好坏】这家企业人力资源判断的过程：拿出一份份简历...

2019-06-04 20:43:53 593

原创 pyltp的使用指南

LTP语义依赖关系说明中文语法分析是目前的自然语言处理的主要任务之一，语义依赖分析是目前实施中文语法分析的主要理论技术，开源的工具则主要有stanford parser和哈工大的语音云LTP。1. 简介LTP（语言技术平台）是哈工大社会计算与信息检索研究中心研制的一整套开放中文自然语言处理系统。pyltp 是 LTP 的 python 封装，提供了分词，词性标注，命名实体识别，...

2019-06-03 11:23:02 1627 2

原创 mac-pytorch报错：packages/torch/init.py", line 79, in <module> from torch._C import *

Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/Users/a/Documents/develop/anaconda2/lib/python2.7/site-packages/torch/__init__.py", line 79, in <modul...

2019-05-30 15:20:09 2184

原创 mongorestore实现数据恢复

1.数据恢复--将/Users/a/Documents/material_index.bson的数据恢复到htf_spider数据库中mongorestore -d htf_spider /Users/a/Documents/material_index.bson--将服务器上~/mongodata/material_index.bson的数据恢复到htf_spider数据库中m...

2019-05-23 20:28:04 1356

原创一文掌握机器学习特征工程，建议收藏

目录1.1异常值检测1.Info()2.describe()3.value_count()1.2特征缩放1.2.1为什么要进行特征缩放1.3特征归一化VS 特征标准化1.3.1特征扩展1.4 离散特征的处理1.5类别不平衡处理欠采样过采样代价敏感学习**1.6缺失值处理1.7二值化-Binarizer1....

2019-05-09 16:24:51 327

转载 spark详解

1. 概述：什么是spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭

2016-09-01 11:08:54 2299

princemrgao的博客