自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 天池赛-新闻文本分类-day02

数据读取import pandas as pdtrain_df = pd.read_csv('../data/train_set.csv', sep='\t', nrows=100)# 查看基本信息,label texttrain_df.head()句子长度分析%pylab inlinetrain_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))print(train_df['text_len'].d

2020-07-22 22:32:07 124

原创 天池赛-新闻文本分类-day01

赛题理解赛题名称:零基础入门NLP之新闻文本分类赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。学习目标理解赛题背景与赛题数据完成赛题报名和数据下载,理解赛题的解题思路赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票

2020-07-22 08:06:30 139

原创 大数据分析_Hive&HBase

Hive一 Hive基本概念1 Hive简介 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5Cgh92nK-1594524836596)(/img/hive.jpg)]学习目标- 了解什么是Hive- 了解为什么使用Hive####1.1 什么是 HiveHive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能,底层数据是存储在 HDFS 上。H

2020-07-12 11:34:46 588

原创 推荐系统_LFM算法实现

基于矩阵分解的CF算法实现:LFMLFM也就是前面提到的Funk SVD矩阵分解LFM原理解析LFM(latent factor model)隐语义模型核心思想是通过隐含特征联系用户和物品,如下图:P矩阵是User-LF矩阵,即用户和隐含特征矩阵。LF有三个,表示共总有三个隐含特征。Q矩阵是LF-Item矩阵,即隐含特征和物品的矩阵R矩阵是User-Item矩阵,有P*Q得来能处理稀疏评分矩阵利用矩阵分解技术,将原始User-Item的评分矩阵(稠密/稀疏)分解为P和Q矩阵,然后利用P

2020-07-11 15:09:41 548

原创 大数据编程语言---Scala_01

scalascala介绍是一个编程语言 多范式 面向对象编程(OOP) 函数式编程(FP)scala是一个运行于jvm平台的语言 最终需要编译成字节码文件运行于jvmscala和java api无缝调用scala 优点语法灵活 优雅 简洁 速度快scala sdk的安装注意windows平台和linux平台之间的差异性windowsSCALA_HOME=C:\Work\soft\scala-2.11.8PATH=;%SCALA_HOME%\bin

2020-07-09 10:28:41 186

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除