- 博客(26)
- 收藏
- 关注

原创 大数据全栈开发工程师-进阶之路
大数据基础准备:1:Java2:mysql3:linux大数据入门:1:Hadoop2:hive3:hbase4:flume5:sqoop6:python大数据进阶:1:spark2:storm3:机器学习4:人工智能
2018-03-27 11:53:28
2187
转载 Java网络爬虫入门:第02课:Java 网络爬虫基础知识
第02课:Java 网络爬虫基础知识引言Java 网络爬虫具有很好的扩展性可伸缩性,其是目前搜索引擎开发的重要组成部分。例如,著名的网络爬虫工具 Nutch 便是采用 Java 开发,该工具以 Apache Hadoop 数据结构为依托,提供了良好的批处理支持。Java 网络爬虫涉及到 Java 的很多知识。本篇中将会介绍网络爬虫中需要了解的 Java 知识以及这些知识主要用于网络爬虫...
2018-12-29 17:08:31
544
转载 Java网络爬虫入门:第01课:网络爬虫原理
引言随着互联网的迅速发展,网络资源越来越丰富,信息需求者如何从网络中抽取信息变得至关重要。目前,有效的获取网络数据资源的重要方式,便是网络爬虫技术。简单的理解,比如您对百度贴吧的一个帖子内容特别感兴趣,而帖子的回复却有1000多页,这时采用逐条复制的方法便不可行。而采用网络爬虫便可以很轻松地采集到该帖子下的所有内容。网络爬虫技术最广泛的应用是在搜索引擎中,如百度、Google、Bin...
2018-12-29 16:19:26
871
转载 机器学习入门笔记(六)为什么要学 Python 以及如何学 Python
学了模型,还需要学习编程吗?对这个问题,答案是肯定的!虽然我们学习的是机器学习原理,但是,并不等于说就可以停留在“原理”层面,彻底 Hands-Off。恰恰是为了学好原理,我们需要具备最基本的编程能力。原因在于:在讲述过程中,对于原理细节的展现,经常会以代码形式出现。在这个时候,就算是仅仅为了理解,也得能读得懂代码。 想要真的理解原理,就会涉及动手实践的问题。一般来说,经过自己去...
2018-12-19 17:19:38
404
转载 机器学习入门笔记(五)如何学习“机器学习”
学习“机器学习”这件事,我走过很长的一段弯路。有一些心得、体会和方法,在此和大家分享。以模型为驱动,了解“机器学习”的本质本课力图引导大家以模型为驱动,进行学习。我选择了几种经典模型(例如:线性回归、逻辑回归、决策树、支持向量机、条件随机场、K 均值等),作为入门的进阶。初次学习模型,不必贪多。但就这些选定的模型,一定要搞清楚其问题域、模型函数、目标函数、训练算法……潜入到数...
2018-12-19 17:18:36
395
转载 机器学习入门笔记(四)学习机器学习原理,改变看待世界的方式
第02课:学习机器学习原理,改变看待世界的方式学习机器学习,除了上一篇提到的实实在在的好处外,在务虚方面同样受益。学习模型运作原理,可以了解现实事物如何转化为数字并被计算,结果又如何映射回现实世界来影响我们的生活。掌握机器学习相关知识,能为我们客观认识现实带来下面这些帮助。破除迷信在这个看起来人工智能要席卷一切的年代,不光是正在或立志于在 AI 领域做技术工作的人,任何人都有必...
2018-12-19 17:15:46
243
转载 机器学习入门笔记(三)为什么要学原理和公式推导?
第01课:为什么要学原理和公式推导机器学习最直接的应用,就是利用模型解决实际业务中的问题。本课所讲解的几个经典模型,均是前辈在机器学习发展的几十年间所总结出的、解决特定问题的固定模式,并且已在实践中得到很好证明。学会这些模型,一则可以以它们为载体理解“机器学习”是一种怎样的机制;二则掌握了模型,也就掌握了当前许多实际问题的有效解决方案。学模型就要学公式推导吗? 在实际工作中...
2018-12-19 17:10:55
1746
1
转载 机器学习入门笔记(二)行业分析
0. 引子AI 原本是一个专业领域,没什么特别的。作为码农一枚,笔者的工作内容正好在这个领域。近来这一年左右时间里,连续发生了多件事情,使得笔者不得不抬起原本一直低着敲代码的头,看看这个为 AI 狂欢的世界。【Case 1】 居然在一个月里碰到两位在相对传统行业创业的亲友,来打听将 AI 技术应用到他们所在行业上的问题,例如:聊天机器人是否可以代替人工客服?两位亲友居然都动了雇佣...
2018-12-07 09:28:53
652
转载 机器学习入门笔记(一)学习计划
第一部分:绪论 授人以鱼不如授人以渔。本部分从意义和作用出发,给出相应的学习方法和与理论配套的编程练习。 第二部分:基本原理 深谙其理,才能灵活应变。本部分带大家了解什么是机器学习、机器如何自己学习,以及机器学习三要素:数据、模型、算法之间的关系。 模型是机器学习的核心,那么模型是怎么得到的呢?本部分也将讲解模型的获取(训练)和评价(验证/测试)过程,相应数据集合的划分以...
2018-12-07 09:24:59
515
1
原创 大数据技术学习笔记之网站流量日志分析项目:网站业务分析数据实现5
一、回顾 -》基于ETL结果进行数据仓库建模 -》ETL结果 true72.46.128.140-2013-09-18 07:58:50/hadoop-zookeeper-intro/20014722"https://www.google.com/""Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.1(KHTM...
2018-04-10 17:51:36
1294
原创 大数据技术学习笔记之网站流量日志分析项目:数据仓库设计与etl模型建模4
一、回顾 -》ETL -》功能:一般只有map task -》1数据过滤 -》非法值 -》字段个数 -》字段合法性判断 -》状态判断 -》2解析补全 -》ip地址 ...
2018-04-10 17:49:33
1093
原创 大数据技术学习笔记之网站流量日志分析项目:数据采集层的实现3
一、数据采集业务 -》数据源 -》网站:用户访问日志、用户行为日志、服务器运行日志 -》业务:订单、用户、商品信息 -》SDK -》SDK用于监听用户的行为,收集用户的信息,发送给nginx等日志服务器 -》针对不同的客户端有不同的SDK -》手机APP -》网站:js ...
2018-04-10 17:48:11
1362
原创 大数据技术学习笔记之网站流量日志分析项目:网站业务与企业架构2
一、回顾 -》flume使用遇到的错误 -》少jar包 -》卡住不动:agent文件不对 -》环境变量:hdfs、hive -》Flume三大组件 -》source:负责采集数据源,将数据源变成数据流,封装在event当中,将封装好的数据流发送给channel -》channel:负责将source发送过来的数据进行...
2018-04-10 17:46:40
592
原创 大数据技术学习笔记之网站流量日志分析项目:Flume日志采集系统1
一、网站日志流量项目 -》项目开发阶段: -》可行性分析 -》需求分析 -》详细设计 -》代码实现 -》测试 -》上线 -》大数据业务流程 -》数据采集:sqoop、Flume、kafka、Logstash -》数据源:日志文件、RDBMS、实时的数据流 ...
2018-04-03 17:58:05
2090
原创 大数据技术学习笔记之hive框架基础3-sqoop工具的使用及具体业务分析
一、CDH版本的介绍及环境部署 -》Hadoop的三大发行版本 -》Apache Hadoop -》cloudera Hadoop:CDH -》Hortonworks: HDP -》选用CDH版本的好处 -》解决每个框架之间的兼容性问题 -》不需要对其他框架进行对应版本的编译 -》cdh5框架的下载:cdh-5...
2018-03-27 11:43:28
323
原创 大数据技术学习笔记之hive框架基础2-hive中常用DML和UDF和连接接口使用
一、分区表的介绍及使用 -》需求:统计每一天的PV,UV,每一天分析前一天的数据 -》第一种情况:每天的日志存储在同一个目录中 /logs/20170209.log 20170210.log 20170211.log -》预处理:将日期字段提取...
2018-03-26 21:16:01
341
原创 大数据技术学习笔记之hive框架基础1-基本架构及环境部署
一、hive的介绍及其发展"27.38.5.159" "-" "31/Aug/2015:00:04:37 +0800" "GET /course/view.php?id=27 HTTP/1.1" "303" "440" - "http://www.micro.com/user.php?act=mycourse" "Mozilla/5.0 (Windows NT
2018-03-26 21:14:10
223
原创 大数据技术学习笔记之Hadoop框架基础5-Hadoop高级特性HA及二次排序思想
一、回顾 -》shuffle流程 -》input:读取mapreduce输入的 默认:key是行的偏移量,value是行的内容 -》map:负责将数据任务切分,过滤,筛选,转换等一系列的数据任务 · 一个块=一个分片=一个map task -》shuffle:分区、排序、分组 -》map...
2018-03-26 21:06:57
265
原创 大数据技术学习笔记之Hadoop框架基础1-Hadoop介绍及伪分布式部署
一、学习建议 -》学习思想 -》设计思想:分布式 -》数据采集 -》数据存储 -》数据计算 -》数据可视化 -》学习阶段 -》了解功能简单使用 -》java、java变量 -》安装部署配置环境 ...
2018-03-26 21:03:15
286
原创 大数据技术学习笔记之Hadoop框架基础2-MapReduce编程及运行流程
一、回顾 -》hadoop的功能? -》海量数据存储和海量计算问题 -》分布式文件存储框架hdfs和分布式计算模型框架MapReduce -》hadoop的四大组件? -》common:用于支持其他模块的组件 -》hdfs:分布式文件系统 -》MapReduce:分布式计算模型 -》YARN:分布式任务...
2018-03-26 21:03:02
501
原创 大数据技术学习笔记之Hadoop框架基础3-网站日志分析及MapReduce过程详解
一、回顾 -》Hadoop启动方式 -》单个进程 sbin/hadoop-daemon.sh start namenode/datanode sbin/yarn-daemon.sh start resourcemanager/nodemanager -》分别启动hdfs与yarn sbin/star...
2018-03-26 21:02:51
1090
原创 大数据技术学习笔记之Hadoop框架基础4-MapReduceshuffer过程详解及zookeeper框架学习
一、MapReduce Shuffle -》MapReduce运行五个阶段 input fileinputformat.setinputpaths(job,new Path(args[0])) 默认:输入key是行的偏移量,value是行的内容 job.setinputFormatClass(Texti...
2018-03-26 21:01:58
214
原创 大数据技术学习笔记之linux基础3-软件管理与shell脚本开发
一、Linux软件管理 -》压缩文件管理 -》常见压缩格式 -》zip/rar -》zip/.tar.gz/.tar.bz2 -》unzip -》tar:打包或者解包的命令 -》gzip -》后缀:.gz -》压缩:gzip file...
2018-03-26 20:50:40
153
原创 大数据技术学习笔记之linux基础2-基础环境与系统管理
一、Linux用户及权限管理 -》用户管理 -》Linux用户的配置文件:/etc/passwd root:x:0:0:root:/root:/bin/bash 用户名:密码:用户id:组id:用户组:家目录:shell -》添加用户:只有root用户才能管理所有用户 -》useradd :用于...
2018-03-26 20:47:59
262
1
原创 大数据技术学习笔记之linux基础1-基础环境与基础命令
一、Linux系统介绍及部署 -》常见操作系统 -》windows、Linux(类unix系统)、Android、iOS、unix(HP UNIX) -》操作系统构成 -》外壳(shell)+驱动+内核 -》常见Linux厂商 -》图形化界面:研究安卓,测试 Ubuntu、suse linux -》命令...
2018-03-26 20:43:12
159
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人