自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 第2章-数据抓取

三种网页抓取方法 正则表达式 Beautiful Soup Lxml

2020-11-23 09:31:00 163

原创 第1章-网络爬虫简介

识别网站所用技术 pip install builtwith仅对Python 2可用:import builtwithbuiltwith.parse("www.baidu.com") 寻找网站所有者 pip install python-whois使用该模块对域名进行WHOIS查询:import whoisprint(whois.whois("www.baidu.com"))结果:{ "domain_name": [ "BAIDU.CO...

2020-11-22 22:44:55 552

原创 Chapter 1. Why Redis?

Redis: REmote DIctionary Server (Redis) Popular usage patterns: In-memory cache for web applications. Redis is availble as a caching option for popular web frameworks such as Django, Ruby-on-Rails, Node.js, and Flask. As a popular caching techno..

2020-11-07 16:02:39 137

原创 使用Java检测句子

package sentencedetection;import java.text.BreakIterator;import java.util.Locale;public class SentenceDetection { public void useSentenceIterator(String source){ BreakIterator iterator = Brea...

2018-10-16 10:50:23 276

原创 使用Java检测标记(单词)

1.字符串分隔package worddetection;import java.util.StringTokenizer;public class WordDetection { public static void main(String[] args){ String input = "\"Let's get this vis-a-vis\", he said, \"th...

2018-10-16 10:39:45 491

原创 使用Java 8从文本文件一次性读取所有内容

package textfilereadjava;import java.io.IOException;import java.nio.file.Files;import java.nio.file.Paths;import java.util.stream.Stream;public class TextFileReadJava { public static void mai...

2018-10-16 10:13:51 5428

原创 使用Java从分层目录中提取所有文件名

1.创建名为TestRecursiveDirectoryTraversal的主类package testrecursivedirectorytraversal;import java.io.File;import java.util.HashSet;import java.util.Set;public class TestRecursiveDirectoryTraversal ...

2018-10-16 10:11:16 223

原创 Python学习笔记之二——列表简介

1、在Python中,用方括号([ ])来表示列表,并用逗号来分隔其中的元素。2、索引从0开始而不是1开始;通过将索引指定为-1,可让Python返回最后一个列表元素。3、修改、添加和删除元素      motorcycles = ['honda', 'yamaha', 'suzuki']      motorcycles.append('ducati')      motor...

2018-09-17 19:52:35 169

原创 Python学习笔记之一——变量和简单数据类型

1、变量      message="Hello Python World!"      print(message)2、字符串      name="ada lovelace"      print(name.title())   #输出Ada Lovelace      print(name.upper())  #输出ADA LOVELACE      print(...

2018-09-17 19:32:45 121

原创 Java嵌套类问题

有段时间没有接触Java了,最近重新拾起,在练习中遇到了下面问题:package com.demo.first;public class First { public class Star { private String name; private int age; private String team; private String position; publ...

2018-03-11 12:47:10 311

原创 MapReduce接口类

MapReduce接口类MapReduce输入的处理类FileInputFormat所有以文件作为数据源的InputFormat实现的基类,FileInputFormat保存作为job输入的所有文件,并实现了对输入文件计算splits的方法。InputFormat负责处理MapReduce的输入部分,主要有三个作用:验证作业的输入是否规范,把输入文件切分成InputSplit,提供RecordRe...

2018-03-09 20:43:52 1621

转载 Hadoop之MapReduce理论总结

MapReduce是一种思想,是一种分布式计算模型,由Google提出,主要用于搜索领域,解决离线海量数据的计算问题,但是不能实现对实时数据的分析和处理。对Hadoop来说,MapReduce是一个分布式计算框架。归结起来就是“分而治之,迭代汇总”。就是把一个大的任务拆解开来,分成一系列小的任务并行执行,使得这些任务快速解决。开发者在Hadoop研发中,增加了Hadoop特有的数据类型,这些数据类...

2018-03-08 20:31:04 287

原创 本地Windows环境的Eclipse下MapReduce程序遇到的问题总结

log4j WARN No appenders could be found for logger解决方法在src目录下添加log4j.properties日志文件# Configure logging for testing: optionally with log file #log4j.rootLogger=debug,appender log4j.rootLogger=inf...

2018-03-08 20:29:47 395

原创 虚拟机CentOS环境下Hadoop伪分布模式的安装与配置问题总结

本人初次接触Hadoop,在环境和文件配置的过程中遇到了一些问题,下面把本人认为重要的配置过程进行简略总结。首先在VMwareWorkStation中新建一个虚拟机,接着配置IP地址,在命令行中输入:vi /etc/sysconfig/network-scripts/ifcfg-eth0;配置完成后输入:service network restart,完成网络重启;测试能不能ping通网关,pin...

2018-03-07 20:11:00 732

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除