go 按行读取/写入

参考:https://gist.github.com/tomcatzh/5d1d0d9a95cecba798d1 func readLines(path string) ([]string, error) { file, err := os.Open(path) if err !=...

2017-12-20 11:33:16

阅读数 1045

评论数 0

机器学习信仰之决策树

1、决策树是一种基本的分类、回归算法 2、1986年ID3算法;1994年C4.5算法;1984年CART算法 3、决策树从根节点到一个叶节点表示一条路径,代表一串规则、条件。 4、决策树考量的是叶节点代表的条件概率,是判别模型 5、决策树算法包括特征选择、树的生成、剪枝三个步骤。 由于决...

2017-11-05 15:51:25

阅读数 256

评论数 0

机器学习信仰之朴素贝叶斯法

敲黑板,划重点上大学那会,贝叶斯定理是用来求条件概率的;现在才知道,贝叶斯定理其实是在讲先验、似然与后验的故事。 贝叶斯定理是一种信仰。1、频率学派与贝叶斯学派 频率学派认为,概率表述一件事发生的频率,是客观存在的一个值;同时,样本X时随机的,所以频率派重点研究样本空间,大部分的概率计算都是针对样...

2017-10-31 00:30:27

阅读数 269

评论数 0

评估目标之RMSE,MAP,NDCG

今天终于得空写点最近看的东西。 最近在看排序算法lambadarank,先写下几种evaluation metrics1. MSEMSE(mean square error, 均方误差)是预测值与真实值差的平方的期望: 2. RMSERMSE(root mean...

2017-10-19 00:02:25

阅读数 1135

评论数 0

python 多进程共享数据的读与写

1. 父进程向子进程传参1.1python通常的数据结构可以传给子进程读,但子进程写无效:from multiprocessing import Pool, Managerdef chid_proc(test_dict, i): print '{} process, before modi...

2017-07-05 14:32:49

阅读数 1016

评论数 0

gensim 中文语料训练 word2vec

gensim 的word2vec api参见: https://radimrehurek.com/gensim/models/word2vec.html 本文说一下中文语料的使用,很简单。1 word2vec api看下api: gensim.models.word2vec.Word2Vec(...

2017-05-23 14:54:38

阅读数 8923

评论数 0

卷积神经网络cnn的个人白话总结

在此总结一下个人对cnn的认识。1 核心思想1 感受野与神经元19世纪60年代,科学家提出了感受野(Receptive Field)。当时科学家针对猫的视觉皮层细胞研究发现,每一个视觉神经元只会处理一小块区域的视觉图像。80年代日本科学家提出神经认知机(Neocoginitron)的概念,可以算作...

2017-05-20 12:36:15

阅读数 5786

评论数 1

tensorflow 学习(三)使用flags定义命令行参数

tf定义了tf.app.flags,用于支持接受命令行传递参数,相当于接受argv。import tensorflow as tf#第一个是参数名称,第二个参数是默认值,第三个是参数描述 tf.app.flags.DEFINE_string('str_name', 'def_v_1',"...

2017-05-17 11:48:11

阅读数 27674

评论数 7

word2vec 源码分析word2vec.c

word2vec源码断断续续看了好几遍了,基本理清了流程和一些trick,添加了注释。 具体很多细节可以参考文末的参考链接,很详细。#include <iostream> #include <stdio.h> #include <stdlib.h> #inclu...

2017-05-16 16:19:42

阅读数 907

评论数 0

tensorflow 框架学些(二) 之 Constant Op

本文介绍tf的constant op: 常量,序列,随机序列 参考官方 http://www.tensorfly.cn/tfdoc/api_docs/python/constant_op.html1 constants —常量1.1 zerostf.zeros(shape, dtype=tf.f...

2017-05-10 22:19:20

阅读数 728

评论数 0

jsonb格式在postgre中的读写

jsonb格式数据可以方便的处理python类型的数据。稍作记录。表中写入jsonb格式可以借助json.dumps完成id=0 sentence = ['测试句子1', '测试句子2'] insert_sql = "insert into test_table (id, jsonb_f...

2017-05-08 11:44:54

阅读数 335

评论数 0

tensorflow框架学习(一)placeholder 与variable

1. placeholder —占位符参考 http://www.tensorfly.cn/tfdoc/api_docs/python/io_ops.html placeholder, 译为占位符,官方说法:”TensorFlow provides a placeholder operation ...

2017-05-05 23:48:37

阅读数 7035

评论数 0

tensorflow 实践(一)使用神经网络做中文情感分析

本文使用哈工大做文本预处理; 两层隐层神经网络;# -*- coding: utf-8 -*- # @bref :使用tensorflow做中文情感分析 import numpy as np import tensorflow as tf import random from sklearn.fe...

2017-05-05 22:57:01

阅读数 8992

评论数 9

LDA的Gibbs 采样

1 马尔可夫链马尔可夫链(Markov Chain),描述了一种状态序列,其每个状态值取决于前面有限个状态。马尔可夫链是具有马尔可夫性质的随机变量的一个数列。这些变量的范围,即它们所有可能取值的集合,被称为“状态空间”,而的值则是在时间n的状态。如果对于过去状态的条件概率分布仅是的一个函数,则这里...

2017-04-04 21:13:59

阅读数 453

评论数 0

理顺主题模型LDA及在推荐系统中的应用

1 关于主题模型使用LDA做推荐已经有一段时间了,LDA的推导过程反复看过很多遍,今天有点理顺的感觉,就先写一版。 隐含狄利克雷分布简称LDA(latent dirichlet allocation),是主题模型(topic model)的一种,由Blei, David M.、Ng, Andre...

2017-04-03 16:09:51

阅读数 6607

评论数 0

pandas read_csv 错误: pandas.parser.CParserError: Error tokenizing data. C error

今天panda.read_csv时遇到以下错误: File "/root/anaconda2/lib/python2.7/site-packages/pandas/io/parsers.py", line 1213, in read data = self._read...

2017-03-31 19:16:51

阅读数 14510

评论数 0

jieba提取关键词时筛选词性时单词性选择的一点注意事项

最近又在迭代特征工程,发现jieba提取特征词有个需要注意的地方,直接看例子例子1>>> import jieba >>> import jieba.posseg as pseg >>> s = '我们喜欢支付宝, 苹果' >>&g...

2017-03-31 17:46:23

阅读数 3743

评论数 0

哈工大ltp词性标注列表和ICTCLAS词性列表

哈工大ltp词性列表Tag Description Example a adjective 美丽 b other noun-modifier 大型, 西式 c conjunction 和, 虽然 d adverb 很 e exclamation 哎 ...

2017-03-30 11:50:35

阅读数 5351

评论数 0

语素、词性列表及jieba与哈工大pyltp一个例子对比

1 关于语素百度百科的解释: 语法单位有大有小,最大的语法单位是句子,比句子小的语法单位,依次是短语、词、语素。人类的语言是有声音、有意义的,是语音和语义的结合体,这便是语法单位基本的特点。语素是最小的语法单位,也就是最小的语音、语义结合体。 所有我的理解是,分词后的各个词都...

2017-03-30 11:19:30

阅读数 3100

评论数 0

pandas DataFrame操作

pandas 处理格式化数据的利器。 本文会不断更新1. DataFram1.1 使用字典构造>>> import pandas as pd >>> d = {'doc':['txt1'], 'nid':[100]} >>> df = pd....

2017-03-29 18:10:20

阅读数 3470

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭