lzw2016的博客

一切都始于第一步

排序:
默认
按更新时间
按访问量

【MapReduce详解及源码解析(一)】——分片输入、Mapper及Map端Shuffle过程

title: 【MapReduce详解及源码解析(一)】——分片输入、Mapper及Map端Shuffle过程 date: 2018-12-03 21:12:42 tags: Hadoop categories: 大数据 toc: true 点击查看我的博客:Josonlee’s Blog 版权...

2018-12-03 21:20:21

阅读数:29

评论数:0

MapReduce:详解Shuffle过程

转自:http://langyu.iteye.com/blog/992916 个人感觉这篇讲shuffle过程对于初学者来说,确实很详尽,不得不推荐一番。你可以点击下载该篇文章的PDF Shuffle分为分区(Partition)、排序(Sort)、分组(Group)、结合(Combine)四个过...

2018-12-01 15:23:40

阅读数:26

评论数:0

Python数据分析学习文章归纳

本文搜集我学习实战过程中看到的好文,和自己学习总结的一些文章,持续更新 数据分析如何入门学习How do I learn data analysis with Python? 虽然是英文的,不过看一遍很大收获(可以用百度翻译看一下) Numpy使用 快速入门Numpy Stack O...

2018-05-27 20:36:02

阅读数:293

评论数:0

爬取通过ajax动态加载的页面(实时监控华尔街见闻资讯与快讯)

学习了几天如何使用scrapy去爬取静态网站,今天尝试去爬取动态加载的网站。选取的网站是华尔街见闻,文中不会像往常一样大篇幅讲解每一步该如何做,而是探讨如何爬取。 在源代码中无法获得全部数据(有的根本没数据),但是通过下拉滑条可以看到网址不变但有数据加载出来,毫无疑问这就是动态加载的网页...

2018-02-15 02:06:10

阅读数:2187

评论数:0

大数据之Hadoop学习——动手实战学习MapReduce编程实例

文章目录一、MapReduce编程实例1.自定义对象序列化需求分析报错:Exception in thread "main" java.lang.IllegalArgumentException: Wrong FS: hdfs:/...

2018-12-09 15:30:21

阅读数:89

评论数:0

利用pandas的to_sql将数据插入MySQL数据库和所踩过的坑

前言 最近做一个Django web的项目要把爬取的一些数据存入MySQL中,数据保存为csv格式,想到pandas中有to_sql这个方法,就采用它了 准备:连接MySQL数据库所需的第三方包pymysql、sqlalchemy(pip安装即可) 实现 from sqlalchemy i...

2018-12-02 16:54:50

阅读数:67

评论数:1

Spark本地安装及Linux下伪分布式搭建

title: Spark本地安装及Linux下伪分布式搭建 date: 2018-12-01 12:34:35 tags: Spark categories: 大数据 toc: true 个人github博客:Josonlee’s Blog 文章目录前期准备本地安装基于hadoop伪分布式搭建...

2018-12-01 14:21:21

阅读数:53

评论数:1

Eclipse Oxygen版本搭建Maven项目缺少Maven Dependencies解决

今天第一次使用maven来搭建MapReduce项目,在eclipse中配置后,创建maven项目但是没有加载出来Maven Dependency这个Liabrary,导致maven没有把相关的jar包下载到本地。 然后,我搜索了一下,发现这个问题有不少人遇到了,我也看了不少相关文章,没有一个能...

2018-11-25 19:31:41

阅读数:9

评论数:0

Hadoop及Spark学习路线及资源收纳

title: Hadoop及Spark学习路线及资源收纳 date: 2018-11-18 16:19:54 tags: Hadoop categories: 大数据 toc: true 点击查看我的博客:Josonlee’s Blog 前言 本人大数据专业方向,收集学习一些...

2018-11-18 17:16:54

阅读数:14

评论数:3

大数据之Hadoop学习《一》——认识HDFS

title: 大数据之Hadoop学习<一>————认识HDFS date: 2018-11-12 20:31:36 tags: Hadoop categories: 大数据 toc: true 点击查看我的博客:Josonlee’s Blog 文章...

2018-11-18 17:14:10

阅读数:9

评论数:0

大数据之Hadoop学习(环境配置)——Hadoop伪分布式集群搭建

title: Hadoop伪分布式集群搭建 date: 2018-11-14 15:17:20 tags: Hadoop categories: 大数据 点击查看我的博客: Josonlee’s Blog 文章目录前言准备伪分布式特点JDK 下载和环境配置配置虚拟机网络环境配置H...

2018-11-18 14:59:19

阅读数:42

评论数:1

如何求F-闭包、候选码求解、范式判断及BCNF分解

title: 关系数据库设计(F+闭包、候选码求解、范式判断及BCNF分解) date: 2018-11-12 21:46:32 tags: SQL categories: 数据库、SQL 这是基于github的个人博客:Josonlee’s Blog 文章目录F+闭包怎么求关系...

2018-11-13 17:11:58

阅读数:34

评论数:0

SQL中NOT EXISTS...[EXCEPT]的妙用

title: ‘SQL中NOT EXISTS…[EXCEPT]的妙用’ date: 2018-11-13 16:15:30 tags: SQL categories: 数据库、SQL toc: true 这是基于github的个人博客:Josonlee’s Blog EXISTS子查询可以理解...

2018-11-13 17:00:25

阅读数:25

评论数:0

sklearn之模型评估指标总结归纳

文章目录机器学习模型评估分类模型回归模型聚类模型交叉验证中指定scoring参数网格搜索中应用 机器学习模型评估 以下方法,sklearn中都在sklearn.metrics类下,务必记住哪些指标适合分类,那些适合回归,不能混着用 分类的模型大多是Classifier结尾,回归是Regressio...

2018-11-01 17:07:08

阅读数:54

评论数:0

sklearn中的模型评估

文章目录1.介绍2. scoring参数2.1 预定义的值2.2 从metric函数定义你的scoring策略2.3 实现你自己的scoring对象3. 分类metrics3.1 二分类/多分类/多标签3.2 accuracy_score3.3 Cohen’s kappa3.4 混淆矩阵3.5 分...

2018-10-25 19:14:36

阅读数:21

评论数:0

Hexo添加gitalk评论插件及 Error: Validation Failed 报错解决

title: Hexo添加gitalk评论插件 date: 2018-10-21 19:05:44 tags: Hexo配置 toc: true Gitalk介绍 Gitalk 是一个基于 Github Issue 和 Preact 开发的评论插件 你可以在这里找到:点击一下 ...

2018-10-21 20:30:14

阅读数:72

评论数:0

sklearn之贝叶斯分类器使用

贝叶斯分类器 原理:基于先验概率P(Y),利用贝叶斯公式计算后验概率P(Y/X)(该对象属于某一类的概率),选择具有最大后验概率的类作为该对象所属类 特点:数据可离散可连续;对数据缺失、噪音不敏感;若属性相关性小,分类效果好,相关也不低于决策树 朴素贝叶斯算法 学习的内容是先验概率和条件概率(都使...

2018-10-14 17:04:03

阅读数:59

评论数:0

KNN分类和回归学习--sklearn

参考文章: 《Python大战机器学习》(不好,就是官方文档的中文版再加上几个简单的例子) 数据挖掘十大算法–K近邻算法 机器学习笔记—KNN算法 常用样本相似性和距离度量方法 KNN(K近邻法) 输入为实例的特征向量,计算新数据与训练数据之间的距离,选取K个距离最近的数据进行...

2018-10-14 17:02:13

阅读数:124

评论数:0

(补充)爬取大西洋月刊并调用彩云小译翻译 API 脚本

导读 上一篇文章写了如何爬取《The Atlantic》的新闻学习英语,这篇文章补充上一篇文章,在爬取文章段落时,同时调用翻译接口,到达如图所示的样子。 如图,翻译的非常不错,借助的是彩云小译·程序猿都知道的翻译机。以下重点就是讲解如何抓包,使用彩云小译的第三方API 问题 文章收纳 回顾js...

2018-10-06 16:57:08

阅读数:160

评论数:0

爬取大西洋月刊每日新闻

导读 最近学英语中,想借助原汁原味的英文素材,浏览了下《经济学人》、《纽约时报》、《大西洋月刊》等,发现《大西洋月刊》(The Atlantic)比较合胃口,所以就写了个爬虫爬取每日新闻,保存markdown文件,便于推送到博客上。 文章收纳: 了解 lxml 的使用 Xpath使用·...

2018-10-06 12:21:34

阅读数:86

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭