彭世瑜的博客

记录我的code历程 个人主页:www.pengshiyu.com

Python实现一个最简单的MapReduce编程模型WordCount

MapReduce编程模型: Map:映射过程 Reduce:合并过程 import operator from functools import reduce # 需要处理的数据 lst = [ "Tom", "Jac...

2018-11-29 22:25:19

阅读数:15

评论数:0

中文计数法亿兆京垓秭穰沟涧正载

个、十、百、千、万、 亿yì、兆zhào、京jīng、垓gāi、秭zǐ、 穰rǎng、沟gōu、涧jiàn、正zhèng、载zǎi 读音各异,不做深入探究了, wiki上是这样的 https://zh-classical.wikipedia.org/wiki/表數法 从小到大表示: 个 十 百 ...

2018-11-29 18:43:34

阅读数:38

评论数:0

Python编程:zope.interface实现接口

pypi : https://pypi.org/project/zope.interface/ 文档:https://zopeinterface.readthedocs.io/en/latest/index.html 面向对象中接口负责定义规则,具体实现类来实现规则 安装 pip install ...

2018-11-28 16:47:25

阅读数:25

评论数:0

配置Pycharm的Scrapy爬虫Spider子类通用模板

# -*- encoding: utf-8 -*- """ @Date : ${YEAR}-${MONTH}-${DAY} @Author : xxx "&quot...

2018-11-27 13:54:57

阅读数:22

评论数:0

使用MapReduce计算用户流量使用情况

mapreduce任务调度 理解map和reduce的数据流的数据结构 项目地址:https://github.com/mouday/MapReduceDemo 参考 使用Intellij Idea打包java为可执行jar包 Idea打包Jar文件 idea创建普通java工程,添加ja...

2018-11-27 00:43:59

阅读数:14

评论数:0

java:MapReduce原理及入门实例:wordcount

MapReduce原理 MapperTask -> Shuffle(分区排序分组) -> ReducerTask MapReduce执行步骤 Map处理任务 读取文件每一行,解析成&l...

2018-11-26 00:14:18

阅读数:18

评论数:0

程序员如何选择编程语言

很多人关心这个问题,其实一张图足以说明每个语言的位置 没有最好的语言,只有最适合的应用场景 参考: c#,c++,Java,Python选择哪个好?

2018-11-24 13:57:53

阅读数:79

评论数:0

Java: Hadoop文件系统的读写操作

所需jar包路径: hadoop-2.8.5/share/hadoop/common hadoop-2.8.5/share/hadoop/common/bin hadoop-2.8.5/share/hadoop/hdfs hadoop-2.8.5/share/hadoop/hdfs/bin j...

2018-11-24 00:04:32

阅读数:42

评论数:0

TypeError: 'encoding' is an invalid keyword argument for this function

python 2.7版本 data_file = open("data.txt", "r", encoding='utf-8') 运行的时候报错: TypeError: 'encoding' is an invalid ke...

2018-11-23 18:03:27

阅读数:18

评论数:0

一图看懂ADSL拨号服务器

基本原理就是: 拨号主机(多台)负责切换ip 固定主机(一台)负责收集ip 爬虫主机(多台)负责使用ip 参考 使用Tornado+Redis维护ADSL拨号服务器代理池 ...

2018-11-22 19:23:59

阅读数:20

评论数:0

linux直接下载java

网上的教程好多是下载到本地,再拷贝到服务器上 因为Oracle官网下载java需要点击接受按钮,如果不接受就会被跳转 参考了一些文章之后,发现: 只要把点击确定后的的cookie复制下来,加到下载请求头里边就行,例如: wget --no-cookies --no-check-certificat...

2018-11-19 23:01:40

阅读数:18

评论数:0

PyCharm文件删除后提示文件找不到:递归删除目录下pyc文件

PyCharm代码删除后,会提示文件找不到,这是由于.pyc 字节码文件没有删除,运行的是之前的代码编译好的*.pyc 字节码文件 解决办法: 删除*.pyc 文件 删除当前目录下.pyc文件 $ rm -rf "*.pyc" 递归删除目录下.pyc文件 ...

2018-11-19 21:31:33

阅读数:62

评论数:0

Python编程:itemgetter获取字典元素和groupby分组

itemgetter获取字典元素 groupby分组 代码示例 from itertools import groupby from operator import itemgetter d1 = {"name": "Tom&quot...

2018-11-18 22:00:48

阅读数:30

评论数:0

PyCharm激活方式

第一步,修改hosts文件 Windows系统hosts文件路径为:c:\windows\system32\drivers\etc Mac和Ubantu(Linux)系统hosts文件路径为:/etc 添加到hosts文件 0.0.0.0 account.jetbrains.com 激活码激活 ...

2018-11-18 19:21:37

阅读数:124

评论数:0

Windows平台Hadoop环境安装配置

下载3个所需软件 JDK安装与环境变量配置 下载hadoop,建议使用国内源下载 ,比如:清华大学源 下载hadooponwindows-master.zip【**能支持在windows运行hadoop的工具】 安装配置 这篇文章写的比较好,简单几步就配置成功了 Windows平台安装配置Ha...

2018-11-18 18:40:11

阅读数:54

评论数:0

callback回调函数和hook钩子函数的简单理解

回调函数callback:所调用函数执行完,之后调用的函数 钩子函数hook:消息到达目的地之前,进行拦截,处理消息 简单理解: Scrapy中就有使用: 回调函数,Request执行完下载流程之后,调用parse函数来解析页面 Request(url, callback=self.parse) ...

2018-11-16 19:44:45

阅读数:41

评论数:0

Django CSRF跨站请求伪造的禁用和使用

CSRF (Cross-site request forgery) Django后台设置 全局和局部设置 # 全站使用 'django.middleware.csrf.CsrfViewMiddleware', # 局部禁用 from django.views.decorators.c...

2018-11-16 18:12:04

阅读数:23

评论数:0

Django中使用POST提交和接收数据

POST表单数据 请求头参数 "Content-type","application/x-www-form-urlencoded" Django接收数据 req...

2018-11-16 17:52:47

阅读数:64

评论数:0

Linux环境下安装phantomjs

新建文件夹 mkdir PhantomJS cd PhantomJS 下载解压 wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2 tar -xjvf phanto...

2018-11-16 17:16:35

阅读数:50

评论数:0

Scrapyd API 中文翻译版本

原文地址:https://scrapyd.readthedocs.io/en/stable/api.html 以下是 Scrapyd 提供的 JSON API. 实现了对Scrapy 项目管理 # 服务器查询 daemonstatus.json 服务器状态 # 项目操作 addversion.j...

2018-11-16 12:41:26

阅读数:71

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭