谦芊珺
码龄9年
关注
提问 私信
  • 博客:24,373
    24,373
    总访问量
  • 26
    原创
  • 1,804,910
    排名
  • 7
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2015-12-20
博客简介:

谦芊珺

查看详细资料
个人成就
  • 获得10次点赞
  • 内容获得1次评论
  • 获得12次收藏
创作历程
  • 27篇
    2017年
成就勋章
TA的专栏
  • 机器学习
    9篇
  • 算法
    9篇
  • 自然语言处理
    6篇
  • spark
    4篇
  • 产品设计
    1篇
  • sql
    2篇
  • git
  • 大数据
    1篇
  • 分享
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

182人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

基于对抗学习的生成式对话模型——讲座(三角兽) 量子位沙龙

吴恩达 有新出的coursera课程 量子位1、两种技术路线基于检索 流程:问题:回答:排序 短文本相似性、短文本相关性基于生成模型 端到端,给定输入,生成结果2、生成式聊天溯源SMT—-NMT—–NRG 统计机器翻译(问答是翻译的一种特殊情况) 神经机器翻译 Neural Response Generation3、NRG面临问题安全回复问题 效率问题等4、安全回复的产生原
原创
发布博客 2017.08.09 ·
579 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

HDFS

http://www.jianshu.com/p/64a92a96fe3chttp://blog.csdn.net/bigdatahappy/article/details/10068881http://www.cnblogs.com/cl1234/p/3566923.html
原创
发布博客 2017.07.31 ·
463 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MySQL(三)

SQL函数分为两种: - Aggregate 函数 - Scalar 函数AggregateAVG() - 返回平均值 COUNT() - 返回行数 FIRST() - 返回第一个记录的值 LAST() - 返回最后一个记录的值 MAX() - 返回最大值 MIN() - 返回最小值 SUM() - 返回总和ScalarUCASE() - 将某个字段转换为大写 LCASE()
原创
发布博客 2017.07.31 ·
399 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MySQL(二)

1、AUTO INCREMENT 字段我们通常希望在每次插入新记录时,自动地创建主键字段的值。 我们可以在表中创建一个 auto-increment 字段。2、视图视图是可视化的表。 在 SQL 中,视图是基于 SQL 语句的结果集的可视化的表。 视图包含行和列,就像一个真实的表。视图中的字段就是来自一个或多个数据库中的真实的表中的字段。 您可以向视图添加 SQL 函数、WHERE 以及 J
原创
发布博客 2017.07.31 ·
384 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

git sourcetree beyond compare

http://blog.csdn.net/cuin123/article/details/50618963
原创
发布博客 2017.07.30 ·
359 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MySQL学习

1、安装在Linux系统下安装mysql非常简单,按照http://blog.csdn.net/fighter_yy/article/details/40753889 安装即可。2、启动启动后输入mysql -u root -p进行登陆,然后需要输入密码3、常用SQL语言  SQL语言分为3类,分别是  - DDL:数据定义语言   - DML:数据操纵语言   - DCL:数据控制语言 后文
原创
发布博客 2017.07.29 ·
389 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

设计思维分享

Design thinkingsolve problems in different ways1、d.school 各学科交叉,思维碰撞2、五个步骤 -empathize同理心 人、情景、过程 如何设计、考虑到人与人的多样性 -define-ideate 头脑风暴,大量想法-prototype 打版-test-回到empathize1、empathize市场研究、用户研究 user/
原创
发布博客 2017.07.28 ·
373 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

推荐系统

参考:http://www.cnblogs.com/pinard/p/6364932.html 参考:http://blog.csdn.net/u013719780/article/details/517750471、导入数据rawData = sc.textFile("/Users/youwei.tan/ml-100k/u.data")2、拆成字段rawRatings = rawData.ma
原创
发布博客 2017.07.28 ·
408 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MLlib

1、归一化from pyspark.mllib.feature import Normalizernormlizer = Normalizer()vector = sc.parallelize([x])normalized_x_mllib = normlizer.transform(vector).first().toArray()
原创
发布博客 2017.07.28 ·
484 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

特征提取

特征类型:数值型、类型型、文本型
原创
发布博客 2017.07.28 ·
575 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark学习(一)基础数据预处理

本文写在进行spark学习的过程中,学习过程主要参考 http://blog.csdn.net/u013719780/article/details/517687201、导包from pyspark import SparkContext2、提交脚本 spark-submit pythonapp.py3、导入数据user_data = sc.textFile('/路径/ml-100k/u.us
原创
发布博客 2017.07.28 ·
3749 阅读 ·
4 点赞 ·
0 评论 ·
6 收藏

自然语言处理(六)词向量

目的:把文本用数据的形式表达出来 方法:传统基于规则,现代基于统计一、词编码方式1——离散表示1、One-hot编码 和句子中顺序无关,耗空间耗时2、词袋模型 每个数表示该词出现的次数(One-hot的加和)3、TF_IDF 每个数代表该词在整个文档中的占比4、N-gram 相邻N个词作为一组进行编码,缺点是浪费空间、无法衡量词之间的关系二、词编码方式2——分布式表示所谓分布式
原创
发布博客 2017.07.26 ·
3827 阅读 ·
1 点赞 ·
1 评论 ·
4 收藏

自然语言处理(五)深度学习

1、tips1、行业基准:用词袋模型表示句子,用SVM或LR做回归,用自己的模型和它做对比 2、分词:启发式或机器学习(HMM,CRF) 3、深度学习是端到端的2、Auto-Encoder可将语料编码化,降维降噪3、CNN机器自动学习卷积滤镜用word2vec将一句话处理成一个矩阵,用CNN案例:文本—>(预处理、TF-IDF、word2vec) —>词向量—>(LR、SVM、LSTM)—>标签
原创
发布博客 2017.07.26 ·
457 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

自然语言处理(四)统计机器翻译SMT

1、统计机器翻译三要素1、翻译模型 2、语言模型 3、排序模型2、翻译流程1、双语数据预处理 2、词对齐 3、构造短语翻译表 4、对短语翻译表进行概率估计 5、解码,beam search 6、评估
原创
发布博客 2017.07.26 ·
2391 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

自然语言处理(三)主题模型

为了解决“一词多义”和“多词一意”的问题,引入“主题”LDA本质是一个三层贝叶斯网络1、共轭分布1、Beta分布是二项分布的共轭先验分布 2、Dirichlet分布是多项分布的共轭先验分布Dirichlet分布的参数[α1,α2,....,αn][\alpha_{1},\alpha_{2},....,\alpha_{n}],一般α\alpha都取一样的值。α=1\alpha=1\quad
原创
发布博客 2017.07.26 ·
665 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

自然语言处理(二)语言模型

1、词袋模型认为词语间相互独立,失去词语间的顺序信息,相当于把词放在一个袋子里。2、N-gram模型引入了词与词之间的顺序。这个N是一个超参数。 1、一般能用2-gram尽量用2-gram。 2、平时3-gram用的多。 3、n>=4的情况很少,在有特别多语料时可以尝试到5-gram
原创
发布博客 2017.07.26 ·
447 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

自然语言处理(一)基础

1、字符串常用命令2、正则表达式3、Python的re模块4、jieba分词工具
原创
发布博客 2017.07.26 ·
374 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

机器学习算法(九)EM和贝叶斯网络的结合 HMM模型

1、隐马尔可夫HMM模型一个隐马尔可夫模型可以表示为λ={A,B,π}\lambda=\{A,B,\pi\}具体就不说了,比较基本。2、HMM模型的三个基本问题1、概率计算问题:给定λ\lambda和观测序列{xi}\{x_{i}\},求P(xi|λ)P(x_{i}| \lambda)。主要方法是前向计算法或后向计算法2、学习算法问题:对于给定的一个观察值序列,调整参数λ,使得观察值出现的概率p(σ
原创
发布博客 2017.07.26 ·
968 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

机器学习算法(八)贝叶斯算法族、朴素贝叶斯

一、贝叶斯网络本文介绍贝叶斯网络。贝叶斯网络与前面的大多数算法有一些区别,它归属与贝叶斯学派,属于判别式模型。前面介绍大多数算法归属于频率学派,属于生成式模型。贝叶斯网络可以看成是一个DAG(有向无环图)模型贝叶斯网络的三个知识点 1、网络如图所示:A←C→BA\leftarrow C\rightarrow B则在C给定的条件下,A与B独立。2、网络如图所示:A→C→BA\rightarrow C
原创
发布博客 2017.07.26 ·
496 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

机器学习算法(七)EM算法族 EM、GMM

一、GMM算法EM算法实在是难以介绍清楚,因此我们用EM算法的一个特例GMM算法作为引入。1、GMM算法问题描述GMM模型称为混合高斯分布,顾名思义,它是由几组分别符合不同参数的高斯分布的数据混合而成的。假设有n个样本点x1,x2,...,xnx_{1},x_{2},...,x_{n},它们来自K个不同的高斯分布。有如下参数:1、不同高斯分布的数据占比:πi\pi_{i} 2、每个高斯分布的均值与
原创
发布博客 2017.07.26 ·
1788 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏
加载更多