- 博客(14)
- 收藏
- 关注
原创 第1章-网络爬虫简介
识别网站所用技术 pip install builtwith仅对Python 2可用:import builtwithbuiltwith.parse("www.baidu.com") 寻找网站所有者 pip install python-whois使用该模块对域名进行WHOIS查询:import whoisprint(whois.whois("www.baidu.com"))结果:{ "domain_name": [ "BAIDU.CO...
2020-11-22 22:44:55 556
原创 Chapter 1. Why Redis?
Redis: REmote DIctionary Server (Redis) Popular usage patterns: In-memory cache for web applications. Redis is availble as a caching option for popular web frameworks such as Django, Ruby-on-Rails, Node.js, and Flask. As a popular caching techno..
2020-11-07 16:02:39 141
原创 使用Java检测句子
package sentencedetection;import java.text.BreakIterator;import java.util.Locale;public class SentenceDetection { public void useSentenceIterator(String source){ BreakIterator iterator = Brea...
2018-10-16 10:50:23 281
原创 使用Java检测标记(单词)
1.字符串分隔package worddetection;import java.util.StringTokenizer;public class WordDetection { public static void main(String[] args){ String input = "\"Let's get this vis-a-vis\", he said, \"th...
2018-10-16 10:39:45 501
原创 使用Java 8从文本文件一次性读取所有内容
package textfilereadjava;import java.io.IOException;import java.nio.file.Files;import java.nio.file.Paths;import java.util.stream.Stream;public class TextFileReadJava { public static void mai...
2018-10-16 10:13:51 5433
原创 使用Java从分层目录中提取所有文件名
1.创建名为TestRecursiveDirectoryTraversal的主类package testrecursivedirectorytraversal;import java.io.File;import java.util.HashSet;import java.util.Set;public class TestRecursiveDirectoryTraversal ...
2018-10-16 10:11:16 228
原创 Python学习笔记之二——列表简介
1、在Python中,用方括号([ ])来表示列表,并用逗号来分隔其中的元素。2、索引从0开始而不是1开始;通过将索引指定为-1,可让Python返回最后一个列表元素。3、修改、添加和删除元素 motorcycles = ['honda', 'yamaha', 'suzuki'] motorcycles.append('ducati') motor...
2018-09-17 19:52:35 174
原创 Python学习笔记之一——变量和简单数据类型
1、变量 message="Hello Python World!" print(message)2、字符串 name="ada lovelace" print(name.title()) #输出Ada Lovelace print(name.upper()) #输出ADA LOVELACE print(...
2018-09-17 19:32:45 126
原创 Java嵌套类问题
有段时间没有接触Java了,最近重新拾起,在练习中遇到了下面问题:package com.demo.first;public class First { public class Star { private String name; private int age; private String team; private String position; publ...
2018-03-11 12:47:10 314
原创 MapReduce接口类
MapReduce接口类MapReduce输入的处理类FileInputFormat所有以文件作为数据源的InputFormat实现的基类,FileInputFormat保存作为job输入的所有文件,并实现了对输入文件计算splits的方法。InputFormat负责处理MapReduce的输入部分,主要有三个作用:验证作业的输入是否规范,把输入文件切分成InputSplit,提供RecordRe...
2018-03-09 20:43:52 1626
转载 Hadoop之MapReduce理论总结
MapReduce是一种思想,是一种分布式计算模型,由Google提出,主要用于搜索领域,解决离线海量数据的计算问题,但是不能实现对实时数据的分析和处理。对Hadoop来说,MapReduce是一个分布式计算框架。归结起来就是“分而治之,迭代汇总”。就是把一个大的任务拆解开来,分成一系列小的任务并行执行,使得这些任务快速解决。开发者在Hadoop研发中,增加了Hadoop特有的数据类型,这些数据类...
2018-03-08 20:31:04 292
原创 本地Windows环境的Eclipse下MapReduce程序遇到的问题总结
log4j WARN No appenders could be found for logger解决方法在src目录下添加log4j.properties日志文件# Configure logging for testing: optionally with log file #log4j.rootLogger=debug,appender log4j.rootLogger=inf...
2018-03-08 20:29:47 399
原创 虚拟机CentOS环境下Hadoop伪分布模式的安装与配置问题总结
本人初次接触Hadoop,在环境和文件配置的过程中遇到了一些问题,下面把本人认为重要的配置过程进行简略总结。首先在VMwareWorkStation中新建一个虚拟机,接着配置IP地址,在命令行中输入:vi /etc/sysconfig/network-scripts/ifcfg-eth0;配置完成后输入:service network restart,完成网络重启;测试能不能ping通网关,pin...
2018-03-07 20:11:00 735
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人