【Python】【爬虫】爬取京东商品用户评论(分析+可视化)

--------------------------------------------------------------------------------------------------------------------- 1:在商品页面f12或右键审查元素,点击network 输入...

2018-05-30 21:46:42

阅读数 13215

评论数 40

Linux pip安装模块时提示Requirement already satisfied

解决方法: 安装时指定安装路径 pip install --target=/usr/local/lib/python2.7/site-packages pyspider

2019-06-26 10:39:31

阅读数 235

评论数 0

pyspider实战,爬取统计局工业运行数据

我们本次爬取湖州市统计局网站各个月份的工业运行数据。http://tjj.huzhou.gov.cn,我们需要爬取的网页索引页http://tjj.huzhou.gov.cn/tjsj/ydsj/index.html,需要具体需要数据所在相应页面。 1、准备工作 1.python基础 ...

2019-06-19 16:18:32

阅读数 671

评论数 0

Java中lambda表达式

Java8引入了很多新特性,其中就包括了Lambda 表达式以及stream,今天就通过简单几句话说说lambda到底是个什么东西。 首先lambda作用是什么? Lambda 表达式可以使代码变的更加简洁,换句话说就是让你可以写出优雅的代码 public static void ...

2019-03-01 13:24:36

阅读数 58

评论数 0

深入理解MapReduce

相关概念           MapReduce是一个基于HDFS的分布式计算框架,是一个可以将分布式计算抽象为Map和Reduce的编程模型,它的核心思想是分治,将大量数据分到不同机器上去分别计算最终汇总从而进行高效的数据处理,但是MapReduce不支持迭代和循环会有一定的局限性,如果有需要...

2018-11-24 15:57:59

阅读数 1118

评论数 0

count(*)和count(1)和count(列名)的区别

count是一种最简单的聚合函数,一般也是我们第一个开始学习的聚合函数,那么他们之间究竟由什么区别呢? 有的人说count(1)和count(*)他们之间有区别,而有的人说他们之间没有区别那么他们之间到底有没有区别呢。 从执行结果来说:         count(1)和count(*)之间...

2018-11-23 11:00:57

阅读数 3237

评论数 0

【深入理解Hadoop之二】HDFS上传下载数据流程

一:上传流程: 1:客户端要上传数据需要调用FileSystem的create方法创建文件, 2:首先DistributeFileSystem会通过RPC远程调namenode创建一个没有任何块依赖的空文件,在这个过程中会检查该文件是否存在,该文件父目录是否存在如果可以上传namenode会向...

2018-11-21 22:35:22

阅读数 270

评论数 0

【深入理解Hadoop之一】 Hadoop1.0,2.0,3.0区别

1.X,2.X区别: 从HDFS角度来看: 1:Hadoop2.0新增了HDFS HA机制,HA增加了standbynamenode进行热备份,解决了1.0的单点故障问题。 2:Hadoop2.0新增了HDFS federation,解决了HDFS水...

2018-11-20 21:00:06

阅读数 1318

评论数 0

flume通过netcat收集Android用户产生数据

目标:通过flume收集安卓用户产生数据,存储到服务器文件 由于目前我这边的局限性所以我用如下的思路来实现它:                  首先通过UDP 的socket将用户产生的信息发送到中间的缓存服务器(因为TCP只提供端到端传输,多个客户同时发送数据时就会出现端口占用情况,所以这...

2018-11-06 15:04:25

阅读数 163

评论数 0

kafka基本操作

#指定zookeeper主机,副本数1,分区数为1,topic名称 bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic topicname #查...

2018-09-26 21:28:09

阅读数 48

评论数 0

Storm编程demo

任务:将得到的字符串更改为大写,添加后缀后写入文件 1:spout类 import org.apache.storm.spout.SpoutOutputCollector; import org.apache.storm.task.TopologyContext; import org.ap...

2018-09-25 18:14:10

阅读数 63

评论数 0

storm集群安装配置:

1:首先安装zookeeper集群 2:安装storm: tar -zxvf apache-storm-1.2.2.tar.gz -C /usr/local sudo mv apache-storm-1.2.2 storm 3:更改conf目录下storm.yarml配置文件 sudo...

2018-09-25 15:52:45

阅读数 27

评论数 0

zookeeper安装配置

1:解压安装 sudo tar -zxvf /home/hadoop/ftpDocuments/zookeeper-3.4.10.tar.gz -C /usr/local/ sudo mv zookeeper-3.4.10 zookeeper chown -R hadoop zookeeper...

2018-09-23 16:15:37

阅读数 50

评论数 0

【Hadoop】自定义Hadoop序列化been Demo

package hadoop.mapreduce.serializable; import org.apache.hadoop.io.Writable; import java.io.DataInput; import java.io.DataOutput; import java.io.I...

2018-09-22 10:31:59

阅读数 40

评论数 0

【python】【爬虫】爬取Fate Grand Order wiki所有英灵礼装图鉴

import requests from lxml import etree for i in range(1,895): ''' url0="https://fgowiki.com/guide/equipdetail/894?p=pc"...

2018-09-17 19:44:25

阅读数 233

评论数 0

【DFS】【递归】【Java】Leetcode 733. 图像渲染

有一幅以二维整数数组表示的图画,每一个整数表示该图画的像素值大小,数值在 0 到 65535 之间。 给你一个坐标 (sr, sc) 表示图像渲染开始的像素值(行 ,列)和一个新的颜色值 newColor,让你重新上色这幅图像。 为了完成上色工作,从初始坐标开始,记录初始坐标的上下左右四个方向...

2018-08-20 14:26:43

阅读数 202

评论数 0

【BFS】【迭代】【Java】迷宫问题

定义一个二维数组: intmaze[5][5]={ 0,1,0,0,0, 0,1,0,1,0, 0,0,0,0,0, 0,1,1,1,0, 0,0,0,1,0, }; 它表示一个迷宫,其中的1表示墙壁,0表示可以走的路,只能横着走或竖着走,不能斜着走,要求编程序找出从左上角到右下角的最短路线。 ...

2018-08-16 16:55:06

阅读数 241

评论数 0

【BFS】【迭代】【Java】Leetcode 515. 在每个树行中找最大值

您需要在二叉树的每一行中找到最大的值。 示例: 输入: 1 / \ 3 2 / \ \ 5 3 9 输出: [1, 3, 9] import java.util.ArrayList...

2018-08-15 21:46:33

阅读数 93

评论数 0

【BFS】【迭代】【Java】Leetcode 员工的重要性

给定一个保存员工信息的数据结构,它包含了员工唯一的id,重要度 和 直系下属的id。 比如,员工1是员工2的领导,员工2是员工3的领导。他们相应的重要度为15, 10, 5。那么员工1的数据结构是[1, 15, [2]],员工2的数据结构是[2, 10, [3]],员工3的数据结构是[3, 5...

2018-08-15 14:09:38

阅读数 90

评论数 0

【BFS】【递推】【Java】字节跳动2018.3笔试T2

定义两个字符串变量:s和m,再定义两种操作,     第一种操作: m = s; s = s + s;  第二种操作: s = s + m;     假设s, m初始化如下: s = "a"; m = s;  求最小的操作步骤数,可以将s拼接到长度等于n ...

2018-08-14 20:57:50

阅读数 553

评论数 0

提示
确定要删除当前文章?
取消 删除