机器学习大实贱

        先来段开场白热热身,自打出道以来一直有做工作笔记的习惯,前几天突然脑抽把一篇扯蛋文bia到了空间里,结果好几个小哥给打赏,特别是F哥打不上赏还抓屏给我看,诚意特别浓烈,执意砸锅卖铁也要投身到共享经济的创业大潮中去,他们村长还托他带话过来,说村口厕所没纸了,合着怪我喽?!

        前段时间闲P技术预研机器学习,有点意思真是呵呵哒了,今儿个谈谈感受哈,没啥营养比较水,技术控看到这里直接backspace吧。谷歌早好些年就整了个啥玩意,貌似通过三层神经网络(输入、隐藏与输出)对海量语料建模,将自然语言聚类呀,找同(近)义词呀以及进行词性分析啥的,计算词语之间的相似度方面巨那个。一堆操作配置差不多了让电脑自个撒开欢可劲儿跑,自己叫杯扎啤点盘花毛啃着鸡爪子瞅它干活,真没比这更酸爽的。矮油,QQ桌面又弹新消息了,《北京离婚一年内房贷按二套房执行》,我去~这年头离婚都要赶早了,汗~~~,不好意思跑题儿了。

        要说人谷歌确实牛X咱不服不行,能琢磨出这套算法真心不一般,咱这八般脑子估计以后也就彻底告别对这种高深算法的探究了,人家造出来咱会使就行了呗,这点出息咱还是有的。大概其估么差不离儿也就是把一个词映射到N个维度实数向量上去,计算它的余弦扣赛值欧氏距离之类的,判断语义的相似度。扣赛什么鬼?不懂找大侄子补补三角吧。听说词频用huffman编码(咋不用奥特曼呢),而且词频越高被激活的隐藏层就越少,从而降低计算的复杂度,不懂,反正挺奥妙洗衣粉的。据说这玩意大受欢迎的原因就是比较高效,Mikolov 在论文[2]中指出,一个优化的单机版本一天可训练上千亿词,为啥哥跑了6个小时也就够个零头呢,凡是找不到原因赖人品准没错。

        这东西牛牪犇掰在哪呢,哥觉得吧就是把自然语言词语这个基本单位的概率分布以模型的方式数学公式化(要不怎么说数学老师厉害呢),照理能统计其实已经蛮不错了,竟然还能预测,最缺德的是预测结果还真像那么回事,这跟谁说理去呀。行吧,说说咋整的吧,小哥我目前做B2B(binbin to boss,binbin是偶小名)方向的业务,2B行业的语料特点就是技术精湛脚法细腻配合默契意识上佳(祝贺中国队1:0战胜韩国队)。从中抽取了107561偏文章,篇篇精华共计296兆,要说这点数据量真有点对不起于大宝,好在这也是三个多月的积淀啦。

        首先准备食材(https://git.oschina.net/gonglibin/codes/rnplksfcy07ezivm3q4th53),再把土豆茄子柿子椒切块,姜丝蒜末葱花备用,浓油赤酱使劲翻炒,最后出锅装盘一气呵成。

        歪果仁用叉子(https://git.oschina.net/gonglibin/codes/0yqsi3w2cjedg6n71ahuv13)。

        中果仁用筷子(https://git.oschina.net/gonglibin/codes/ipjc4ngl9yv3x7kr6zb1012)。

        印度阿三手抓饭(原谅小哥不能提供php版)。

        说了这么多味道咋样呀?(https://my.oschina.net/u/1376494/blog/856654)绝对雅蜜雅蜜亚克西。

        百度“厉力文武”(四个字噢),或者https://git.oschina.net/gonglibin,全是干货,拿走不谢,我们的口号是:励斌出品,必是精品。

转载于:https://my.oschina.net/gonglibin/blog/866265

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值