Study
文章平均质量分 80
水阔鱼沉何处问
自然语言处理,机器学习入坑者
展开
-
Linux的Awk文本处理工具笔记
最近刷Leetcode时发现awk真是一个非常强大的工具,在shell编程里要几十行搞定的内容用awk一行就搞定了。先贴几个awk的guide链接留作备份防止以后找不到。第零个就是强大的Wikipedia,Awk,维基百科上就自带了很多例子和解释,在最后的参考文献里也能找到有用的链接。第一个是酷壳——AWK 简明教程,这个简明教程很强大,从一个文档的实例入手然后逐步讲解各个知识点,边讲解边处理,还...原创 2018-06-11 16:55:49 · 477 阅读 · 0 评论 -
大数据处理系统学习笔记(一)
参考链接有[实操演练] 大数据架构:flume-ng+Kafka+Storm+HDFS 实时系统组合Flume+Kafka+Storm+Redis构建大数据实时处理系统:实时统计网站PV、UV+展示菜鸟教程之Redis教程数据采集(Flume) => 数据接入(传输)(Kafka)=> 流计算(Storm) => 数据输出与可视化(MySQL)Flume(http://flume...转载 2018-05-31 14:02:35 · 1311 阅读 · 0 评论 -
分布式账本平台比较(转)总结
参考链接是对比以太坊、Hyperledger Fabric和Corda参考文章中的表1对三个分布式账本技术(DLT,distributed ledger technologies)框架的总结十分完整,本文只总结要点。原文章最后的参考文献很有价值三个DLT简介以太坊(Ethereum):开源的有智能合约功能的公共区块链平台,数字货币是以太币(Ether),提供decentralized的Ethere...转载 2018-05-31 18:05:22 · 3181 阅读 · 0 评论 -
文本关键词提取小结
网上看到一篇文章总结了几个关键词抽取的算法(如何做好文本关键词提取?从达观数据应用的三种算法说起),想到这是一个很重要的课题还是有必要小结一下的,有不足之处大家可以讨论讨论还有几个比较好的链接供大家参考中文分词原理及工具中文分词工具测评自然语言处理入门(4)——中文分词原理及分词工具介绍大体上关键词抽取算法分三种:有监督(二分类问题,需提供大量标注好的训练数据),半监督(提供少量的有标注的训练数据...原创 2018-06-01 11:22:24 · 11448 阅读 · 0 评论 -
Linux命令大全(转)
在cnblog上发现一个很强大的博客,介绍了很多Linux命令Linux常用命令大全(非常全!!!)还有一个网站可以随时查找Linux命令Linux命令大全再附赠一个vim的Cheat Sheet Vim Cheat Sheet...转载 2018-06-08 10:54:09 · 196 阅读 · 0 评论 -
大数据处理系统学习笔记(二)之Hadoop
这次总结一下hadoop的相关知识点,主要参考了以下三个链接第三章:Hadoop的一些基本概念分布式计算框架Hadoop原理及架构全解Hadoop基本原理和维基页面Apache_Hadoop,MapReduce现在常见的有三大分布式计算系统:Hadoop,Spark和Storm。前两个由Apache开发,后一个由Twitter开发。Hadoop使用硬盘存储数据,数据持久性强但是受硬盘读写速度影响数...转载 2018-06-19 16:09:46 · 443 阅读 · 0 评论 -
深度学习笔记
记录一些看过的比较好的深度学习文章。深度 | 从修正Adam到理解泛化:概览2017年深度学习优化算法的最新研究进展 机器之心翻译的Sebastian Ruder的blog概览深度学习中的五大正则化方法和七大优化策略 知乎专栏,也是机器之心要点:正则化避免参数数量多于样本数量的模型过拟合,有助于泛化。而增加样本数量也可以防止过拟合。防止过拟合还可使用数据增强、L1 正则化、L2 正则化、Dropo...原创 2018-07-04 22:05:57 · 269 阅读 · 0 评论