机器学习
文章平均质量分 83
Data_IT_Farmer
BJUT 2014级 计算机学院小硕一枚,现为某上市金融公司--高级大数据开发工程师一枚。自20170701开始记录自己的技术工作生涯!广结天下技术之友,笑对未来技术之难题!
展开
-
Spark机器学习API之特征处理
关键字:spark、机器学习、特征处理、特征选择Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml使用起来比较方便和灵活。Spark机器学习中关于特征处理的API主要包含三个方面:特征提取、特征转换与特征选择。本文通过例子介绍和学习Spark.ml中提供的关于特征处理API中的特征选择(Feature Selectors)转载 2021-06-20 20:31:42 · 374 阅读 · 0 评论 -
Spark MLlib实现的中文文本分类–Naive Bayes
关键字:spark mllib、文本分类、朴素贝叶斯、naive bayes文本分类是指将一篇文章归到事先定义好的某一类或者某几类,在数据平台的一个典型的应用场景是,通过爬取用户浏览过的页面内容,识别出用户的浏览偏好,从而丰富该用户的画像。本文介绍使用Spark MLlib提供的朴素贝叶斯(Naive Bayes)算法,完成对中文文本的分类过程。主要包括中文分词、文本表示(TF-IDF)、模型训练、分类预测等。中文分词对于中文文本分类而言,需要先对文章进行分词,我使用的是IKAnalyzer中转载 2021-06-20 18:14:21 · 1544 阅读 · 0 评论 -
干货请收好:终于有人把用户画像的流程、方法讲明白了
在日常,我们很习惯的将有相同特点特征的人群进行统一的归纳:比如“高富帅”,“白富美”……也因为有了这样的标签,构成了群体“用户画像”的一部分。 在“大数据”火在了各行各业的今天,“用户画像”也得到了前所未有的重视。对于移动互联网来说,用户画像在产品设计、个性化运营、精准营销等众多环节担任着关键角色。1、什么是用户画像? 用户画像的前提是一系列真实数据之上的目标群体的用户模型,即我们...原创 2019-01-09 17:43:16 · 16756 阅读 · 2 评论 -
机器学习类面试问题与思路总结,你需要吗?
机器学习、大数据相关岗位根据业务的不同,岗位职责大概分为:1、平台搭建类 数据计算平台搭建,基础算法实现,当然,要求支持大样本量、高维度数据,所以可能还需要底层开发、并行计算、分布式计算等方面的知识;2、算法研究类 - 文本挖掘,如领域知识图谱构建、垃圾短信过滤等; - 推荐,广告推荐、APP 推荐、题目推荐、新闻推荐等; - 排序,搜索结果排序、广告排序等; - 广告投放效果...转载 2018-07-25 14:39:51 · 447 阅读 · 0 评论 -
入行 AI,如何选个脚踏实地的岗位?
入行 AI,如何选个脚踏实地的岗位?2018年07月04日 15:13:43 https://blog.csdn.net/GitChat/article/details/80912831本文作者:李烨,高级软件工程师,现就职于微软(Microsoft),曾在易安信(EMC)和太阳微系统(Sun Microsystems)任软件工程师。先后参与聊天机器人、大数据分析平...转载 2018-07-06 11:50:04 · 424 阅读 · 0 评论 -
向量范数与矩阵范数定义和python向量矩阵运算示例
向量范数与矩阵范数定义和python相关运算示例1.范数(norm)的意义要更好的理解范数,就要从函数、几何与矩阵的角度去理解。 我们都知道,函数与几何图形往往是有对应的关系,这个很好想象,特别是在三维以下的空间内,函数是几何图像的数学概括,而几何图像是函数的高度形象化,比如一个函数对应几何空间上若干点组成的图形。 但当函数与几何超出三维空间时,就难以获得较好的想象,于是就有了映射的概念,映射表达...原创 2018-05-31 13:05:04 · 2676 阅读 · 0 评论 -
机器学习中训练集、验证集和测试集的作用
通常,在训练有监督的机器学习模型的时候,会将数据划分为训练集、验证集和测试集,划分比例一般为0.6 : 0.2 : 0.2。对原始数据进行三个集合的划分,是为了能够选出效果(可以理解为准确率)最好的、泛化能力最佳的模型。训练集(Training set)作用是用来拟合模型,通过设置分类器的参数,训练分类模型。后续结合验证集作用时,会选出同一参数的不同取值,拟合出多个分类器。验证集(Cross Va...转载 2018-06-12 19:49:18 · 17267 阅读 · 0 评论 -
机器学习-训练模型的保存与恢复(sklearn)
在做模型训练的时候,尤其是在训练集上做交叉验证,通常想要将模型保存下来,然后放到独立的测试集上测试,下面介绍的是Python中训练模型的保存和再使用。模型保存(pickle模块和joblib模块)使用pickle模块或者sklearn内部的joblib一、使用pickle模块from sklearn import svmfrom sklearn import datase...原创 2018-06-11 21:56:09 · 21219 阅读 · 11 评论 -
前向传播算法(Forward propagation)与反向传播算法(Back propagation)以及sigmoid函数介绍
前向传播算法(Forward propagation)与反向传播算法(Back propagation)以及sigmoid函数介绍虽然学深度学习有一段时间了,但是对于一些算法的具体实现还是模糊不清,用了很久也不是很了解。因此特意先对深度学习中的相关基础概念做一下总结。先看看前向传播算法(Forward propagation)与反向传播算法(Back propagation),sigmoid函数...转载 2018-04-09 11:42:14 · 2894 阅读 · 0 评论 -
数据挖掘笔记-情感倾向点互信息算法
点间互信息(PMI)主要用于计算词语间的语义相似度,基本思想是统计两个词语在文本中同时出现的概率,如果概率越大,其相关性就越紧密,关联度越高。两个词语word1与word2的PMI值计算公式如下式所示为:P(word1&word2)表示两个词语word1与word2共同出现的概率,即word1与word2共同出现的文档数, P(word1)与P(word2)分别表示两个转载 2018-01-23 11:10:12 · 2327 阅读 · 0 评论 -
TensorFlow安装错误-ImportError: dlopen(/Library/-………_pywrap_tensorflow_internal.so,10): Library not load
TensorFlow安装错误-ImportError: dlopen(/Library/-………_pywrap_tensorflow_internal.so,10): Library not load转载 2017-12-19 11:06:54 · 7090 阅读 · 0 评论