CycloneKid的博客

路漫漫兮修远兮,吾将上下而求索

Scrapy框架入门

Scrapy简介 Scrapy框架是使用Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试 Scrapy不仅有单机版,开发者还可以使用其集群版Scrapy-redis开发分布式爬虫...

2018-06-11 21:12:41

阅读数:121

评论数:0

Hadoop入门

Hadoop生态圈 Hadoop简介 Hadoop是apache旗下的一套开源分布式计算框架。Hadoop的作用简单来说就是利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理。 Hadoop的核心组件有三个,分别是:1.分布式文件系统HDFS,2.运算资源调度系统YARN...

2018-06-07 12:09:27

阅读数:108

评论数:0

Python爬虫基础-01-带有请求参数的爬虫

在上一篇文章Python爬虫入门中,Python爬虫程序爬取了指定网页的信息,爬虫发出的请求是一个固定的URL和部分请求信息,并没有请求参数,但是爬虫工作过程中发出的请求一般都需要加上请求参数,以完成对指定内容的爬取 HTTP请求分为POST请求和GET请求,这两种请求添加请求参数的方式不同 ...

2018-06-06 19:06:23

阅读数:308

评论数:0

Log4j框架配置文件log4j.properties配置使用详解

log4j.properties配置文件详解 Log4j支持两种配置文件格式,一种是XML格式的文件,一种是properties(key=value)文件,其中properties格式的配置文件最为常用,其有一个固定的文件名log4j.properties,下面我们介绍使用properties文...

2018-06-05 19:12:19

阅读数:128

评论数:0

Log4j入门

一.Log4j简介 Log4j是Apache开发的一款日志框架,被非常广泛用于各种类型的java项目中,Log4j官网 在应用程序中添加日志记录总的来说基于三个目的: 监视代码中变量的变化情况,周期性的记录到文件中供其他应用进行统计分析工作 跟踪代码运 行时轨迹,作为日后审计的依据 担...

2018-06-05 15:30:59

阅读数:55

评论数:0

Linux常用命令

Linux命令非常多,很难全部记下来,但是大多数命令平时使用时根本用不到。这里我把我常用的一些Linux命令记下来,方便使用 网络相关 查看网络端口使用情况 查看具体某一端口的使用情况,以下两命令均可 netstat -ano|grep 目标端口号 netstat -an|grep...

2018-06-04 14:53:28

阅读数:51

评论数:0

IDEA使用技巧--在文件导航栏中屏蔽指定后缀名的文件

问题: IDEA中做比较大的项目时,由于文件比较多,在文件导航栏中找文件时需要不停地滚动滑轮上下翻。而且,文件导航栏中往往会出现很多不需要编辑和查看的文件,例如:下图中的log文件,程序编写过程中根本用不到这些文件 解决方案: 在File->setting-&...

2018-06-01 22:39:29

阅读数:963

评论数:0

在PyCharm切换Python2和Python3

最近在学习Python爬虫,用PyCharm运行示例爬虫程序,有的程序使用Python2的库,有的程序使用Python3的库,需要切换启动程序,如果没有设置,就会报错

2018-06-01 07:54:43

阅读数:2205

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭