技术学习笔记
文章平均质量分 59
黄剑锋1996
脚踏实地,虚心请教,终身学习,学以致用。欢迎和大家一起交流技术:微信18797813868
展开
-
大数据技术学习笔记之hive框架基础3-sqoop工具的使用及具体业务分析
一、CDH版本的介绍及环境部署 -》Hadoop的三大发行版本 -》Apache Hadoop -》cloudera Hadoop:CDH -》Hortonworks: HDP -》选用CDH版本的好处 -》解决每个框架之间的兼容性问题 -》不需要对其他框架进行对应版本的编译 -》cdh5框架的下载:cdh-5...原创 2018-03-27 11:43:28 · 303 阅读 · 0 评论 -
Java网络爬虫入门:第01课:网络爬虫原理
引言随着互联网的迅速发展,网络资源越来越丰富,信息需求者如何从网络中抽取信息变得至关重要。目前,有效的获取网络数据资源的重要方式,便是网络爬虫技术。简单的理解,比如您对百度贴吧的一个帖子内容特别感兴趣,而帖子的回复却有1000多页,这时采用逐条复制的方法便不可行。而采用网络爬虫便可以很轻松地采集到该帖子下的所有内容。网络爬虫技术最广泛的应用是在搜索引擎中,如百度、Google、Bin...转载 2018-12-29 16:19:26 · 826 阅读 · 0 评论 -
机器学习入门笔记(二)行业分析
0. 引子AI 原本是一个专业领域,没什么特别的。作为码农一枚,笔者的工作内容正好在这个领域。近来这一年左右时间里,连续发生了多件事情,使得笔者不得不抬起原本一直低着敲代码的头,看看这个为 AI 狂欢的世界。【Case 1】 居然在一个月里碰到两位在相对传统行业创业的亲友,来打听将 AI 技术应用到他们所在行业上的问题,例如:聊天机器人是否可以代替人工客服?两位亲友居然都动了雇佣...转载 2018-12-07 09:28:53 · 618 阅读 · 0 评论 -
机器学习入门笔记(一)学习计划
第一部分:绪论 授人以鱼不如授人以渔。本部分从意义和作用出发,给出相应的学习方法和与理论配套的编程练习。 第二部分:基本原理 深谙其理,才能灵活应变。本部分带大家了解什么是机器学习、机器如何自己学习,以及机器学习三要素:数据、模型、算法之间的关系。 模型是机器学习的核心,那么模型是怎么得到的呢?本部分也将讲解模型的获取(训练)和评价(验证/测试)过程,相应数据集合的划分以...转载 2018-12-07 09:24:59 · 459 阅读 · 2 评论 -
机器学习入门笔记(六)为什么要学 Python 以及如何学 Python
学了模型,还需要学习编程吗?对这个问题,答案是肯定的!虽然我们学习的是机器学习原理,但是,并不等于说就可以停留在“原理”层面,彻底 Hands-Off。恰恰是为了学好原理,我们需要具备最基本的编程能力。原因在于:在讲述过程中,对于原理细节的展现,经常会以代码形式出现。在这个时候,就算是仅仅为了理解,也得能读得懂代码。 想要真的理解原理,就会涉及动手实践的问题。一般来说,经过自己去...转载 2018-12-19 17:19:38 · 376 阅读 · 0 评论 -
机器学习入门笔记(五)如何学习“机器学习”
学习“机器学习”这件事,我走过很长的一段弯路。有一些心得、体会和方法,在此和大家分享。以模型为驱动,了解“机器学习”的本质本课力图引导大家以模型为驱动,进行学习。我选择了几种经典模型(例如:线性回归、逻辑回归、决策树、支持向量机、条件随机场、K 均值等),作为入门的进阶。初次学习模型,不必贪多。但就这些选定的模型,一定要搞清楚其问题域、模型函数、目标函数、训练算法……潜入到数...转载 2018-12-19 17:18:36 · 351 阅读 · 0 评论 -
机器学习入门笔记(四)学习机器学习原理,改变看待世界的方式
第02课:学习机器学习原理,改变看待世界的方式学习机器学习,除了上一篇提到的实实在在的好处外,在务虚方面同样受益。学习模型运作原理,可以了解现实事物如何转化为数字并被计算,结果又如何映射回现实世界来影响我们的生活。掌握机器学习相关知识,能为我们客观认识现实带来下面这些帮助。破除迷信在这个看起来人工智能要席卷一切的年代,不光是正在或立志于在 AI 领域做技术工作的人,任何人都有必...转载 2018-12-19 17:15:46 · 219 阅读 · 0 评论 -
机器学习入门笔记(三)为什么要学原理和公式推导?
第01课:为什么要学原理和公式推导机器学习最直接的应用,就是利用模型解决实际业务中的问题。本课所讲解的几个经典模型,均是前辈在机器学习发展的几十年间所总结出的、解决特定问题的固定模式,并且已在实践中得到很好证明。学会这些模型,一则可以以它们为载体理解“机器学习”是一种怎样的机制;二则掌握了模型,也就掌握了当前许多实际问题的有效解决方案。学模型就要学公式推导吗? 在实际工作中...转载 2018-12-19 17:10:55 · 1658 阅读 · 1 评论 -
大数据技术学习笔记之网站流量日志分析项目:Flume日志采集系统1
一、网站日志流量项目 -》项目开发阶段: -》可行性分析 -》需求分析 -》详细设计 -》代码实现 -》测试 -》上线 -》大数据业务流程 -》数据采集:sqoop、Flume、kafka、Logstash -》数据源:日志文件、RDBMS、实时的数据流 ...原创 2018-04-03 17:58:05 · 2037 阅读 · 0 评论 -
大数据生态集群环境搭建部署超详细教程-HJF
大数据集群环境搭建部署连接HJF整理原创 2018-03-28 15:46:12 · 1048 阅读 · 1 评论 -
大数据技术学习笔记之网站流量日志分析项目:网站业务分析数据实现5
一、回顾 -》基于ETL结果进行数据仓库建模 -》ETL结果 true72.46.128.140-2013-09-18 07:58:50/hadoop-zookeeper-intro/20014722"https://www.google.com/""Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.1(KHTM...原创 2018-04-10 17:51:36 · 1258 阅读 · 0 评论 -
大数据技术学习笔记之网站流量日志分析项目:数据仓库设计与etl模型建模4
一、回顾 -》ETL -》功能:一般只有map task -》1数据过滤 -》非法值 -》字段个数 -》字段合法性判断 -》状态判断 -》2解析补全 -》ip地址 ...原创 2018-04-10 17:49:33 · 1062 阅读 · 0 评论 -
大数据技术学习笔记之网站流量日志分析项目:数据采集层的实现3
一、数据采集业务 -》数据源 -》网站:用户访问日志、用户行为日志、服务器运行日志 -》业务:订单、用户、商品信息 -》SDK -》SDK用于监听用户的行为,收集用户的信息,发送给nginx等日志服务器 -》针对不同的客户端有不同的SDK -》手机APP -》网站:js ...原创 2018-04-10 17:48:11 · 1316 阅读 · 1 评论 -
大数据技术学习笔记之网站流量日志分析项目:网站业务与企业架构2
一、回顾 -》flume使用遇到的错误 -》少jar包 -》卡住不动:agent文件不对 -》环境变量:hdfs、hive -》Flume三大组件 -》source:负责采集数据源,将数据源变成数据流,封装在event当中,将封装好的数据流发送给channel -》channel:负责将source发送过来的数据进行...原创 2018-04-10 17:46:40 · 558 阅读 · 0 评论 -
大数据全栈开发工程师-进阶之路
大数据基础准备:1:Java2:mysql3:linux大数据入门:1:Hadoop2:hive3:hbase4:flume5:sqoop6:python大数据进阶:1:spark2:storm3:机器学习4:人工智能原创 2018-03-27 11:53:28 · 2157 阅读 · 0 评论 -
Java网络爬虫入门:第02课:Java 网络爬虫基础知识
第02课:Java 网络爬虫基础知识引言Java 网络爬虫具有很好的扩展性可伸缩性,其是目前搜索引擎开发的重要组成部分。例如,著名的网络爬虫工具 Nutch 便是采用 Java 开发,该工具以 Apache Hadoop 数据结构为依托,提供了良好的批处理支持。Java 网络爬虫涉及到 Java 的很多知识。本篇中将会介绍网络爬虫中需要了解的 Java 知识以及这些知识主要用于网络爬虫...转载 2018-12-29 17:08:31 · 518 阅读 · 0 评论