CycloneKid的博客

路漫漫兮修远兮,吾将上下而求索

排序:
默认
按更新时间
按访问量

Scala基础-01-Scala环境安装及基础语法(变量,函数)

Scala简介 Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。Scala是编写大数据框架Spark的语言,随着大数据的兴起,越来越多的人开始学习Scala Scala语言的...

2018-07-05 22:41:16

阅读数:284

评论数:0

Python爬虫基础-02-提取数据

页面解析和数据提取 在第一篇博客Python爬虫入门中曾分析过通用爬虫和聚焦爬虫,通用爬虫获取整个网页,而聚焦爬虫是针对部分数据进行获取,聚焦爬虫和通用爬虫一样会将整个网页下载下来,但下载下来之后还需要进行处理—将有用的信息提取出来 网页内容根据结构类型可分为两类,非结构化的数据和结构化的数据...

2018-07-04 21:09:14

阅读数:150

评论数:0

Scrapy框架入门

Scrapy简介 Scrapy框架是使用Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试 Scrapy不仅有单机版,开发者还可以使用其集群版Scrapy-redis开发分布式爬虫...

2018-06-11 21:12:41

阅读数:121

评论数:0

Hadoop入门

Hadoop生态圈 Hadoop简介 Hadoop是apache旗下的一套开源分布式计算框架。Hadoop的作用简单来说就是利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理。 Hadoop的核心组件有三个,分别是:1.分布式文件系统HDFS,2.运算资源调度系统YARN...

2018-06-07 12:09:27

阅读数:108

评论数:0

Python爬虫基础-01-带有请求参数的爬虫

在上一篇文章Python爬虫入门中,Python爬虫程序爬取了指定网页的信息,爬虫发出的请求是一个固定的URL和部分请求信息,并没有请求参数,但是爬虫工作过程中发出的请求一般都需要加上请求参数,以完成对指定内容的爬取 HTTP请求分为POST请求和GET请求,这两种请求添加请求参数的方式不同 ...

2018-06-06 19:06:23

阅读数:308

评论数:0

Log4j框架配置文件log4j.properties配置使用详解

log4j.properties配置文件详解 Log4j支持两种配置文件格式,一种是XML格式的文件,一种是properties(key=value)文件,其中properties格式的配置文件最为常用,其有一个固定的文件名log4j.properties,下面我们介绍使用properties文...

2018-06-05 19:12:19

阅读数:128

评论数:0

Log4j入门

一.Log4j简介 Log4j是Apache开发的一款日志框架,被非常广泛用于各种类型的java项目中,Log4j官网 在应用程序中添加日志记录总的来说基于三个目的: 监视代码中变量的变化情况,周期性的记录到文件中供其他应用进行统计分析工作 跟踪代码运 行时轨迹,作为日后审计的依据 担...

2018-06-05 15:30:59

阅读数:55

评论数:0

Linux常用命令

Linux命令非常多,很难全部记下来,但是大多数命令平时使用时根本用不到。这里我把我常用的一些Linux命令记下来,方便使用 网络相关 查看网络端口使用情况 查看具体某一端口的使用情况,以下两命令均可 netstat -ano|grep 目标端口号 netstat -an|grep...

2018-06-04 14:53:28

阅读数:51

评论数:0

IDEA使用技巧--在文件导航栏中屏蔽指定后缀名的文件

问题: IDEA中做比较大的项目时,由于文件比较多,在文件导航栏中找文件时需要不停地滚动滑轮上下翻。而且,文件导航栏中往往会出现很多不需要编辑和查看的文件,例如:下图中的log文件,程序编写过程中根本用不到这些文件 解决方案: 在File->setting-&...

2018-06-01 22:39:29

阅读数:963

评论数:0

在PyCharm切换Python2和Python3

最近在学习Python爬虫,用PyCharm运行示例爬虫程序,有的程序使用Python2的库,有的程序使用Python3的库,需要切换启动程序,如果没有设置,就会报错

2018-06-01 07:54:43

阅读数:2204

评论数:0

Python爬虫入门

Python爬虫介绍 聚焦爬虫和通用爬虫 爬虫根据其使用场景分为通用爬虫和聚焦爬虫,两者区别并不是很大,他们获取网页信息的方式是相同的。但通用爬虫收集网页的全部信息,而聚焦爬虫则只获取和指定内容相关的网页信息,即需要信息的筛选 爬虫的工作原理 通用爬虫是百度谷歌这样提供搜索服务的公司使用的...

2018-05-31 16:24:20

阅读数:209

评论数:1

win10更新后C盘空间变小解决方法

清理原装Windows 最近更新了win10,更新后发现C盘的可用空间突然小了很多,去百度查了查才知道win10更新后原版的系统文件没有删除。。。。所以C盘空间小了很多,但是原版操作系统文件怎么删除却是个问题。我在控制面板里找到了可以解决这个问题的方法 第一步: 打开控制面板-系统和安全,在...

2018-05-31 09:55:15

阅读数:12629

评论数:0

JVM垃圾回收策略与垃圾收集器

本文是在读完深入理解Java虚拟机(周志明著)后的总结,有很多部分借鉴了原书的说法,如果想深入了解这些内容,推荐看原书 JVM垃圾回收策略 垃圾回收主要包括确定垃圾和回收垃圾两步,JVM采用可达性分析算法分析哪些是废弃对象需要回收,然后采用GC算法进行垃圾清理(GC算法)。由于堆内存的使用...

2018-05-05 16:37:31

阅读数:86

评论数:0

JAVA虚拟机创建对象

Java是一种面向对象的语言,所以Java程序在运行时和对象相关的操作非常频繁,这包括创建对象,定位对象并对其访问 对象创建 从JVM虚拟机工作的角度,对象的创建要经过两个步骤:内存分配,对象初始设置 1.内存分配 对象创建起始于虚拟机遇到一条new指令,之后虚拟机会先检查方法区中...

2018-05-03 19:22:41

阅读数:47

评论数:0

GC算法

GC算法即garbage collection垃圾回收算法,这些算法是JVM垃圾收集器的底层实现原理 标记-清除算法(Mark-Sweep) 这是最基础的GC算法,其他的GC算法都是在标记-清除算法的基础上改进优化而来的 标记清除算法的执行分为两步,第一步标记出所有需要回收的对象,第二步...

2018-05-03 18:25:05

阅读数:49

评论数:0

JVM内存区域入门

JVM运行时数据区域 Java虚拟机在执行Java程序的过程中,会把它所管理的内存划分为若干个不同的数据区。这些区域有各自的用途,以及创建和销毁的时间,有的区域随着虚拟机进程的启动而存在,有的区域则根据用户线程的启动和结束而建立和销毁,我们可以将这些区域统称为Java运行时数据区域 Java虚...

2018-05-03 11:04:12

阅读数:44

评论数:0

Python基础语法-05-装饰器

闭包 闭包是装饰器实现的底层部分,要想明白装饰器底层怎么实现,必须要搞懂闭包 闭包是什么? 将一个函数定义到一个函数内部,外函数的返回是内函数,这时这两个函数就构成了一个闭包 闭包举例: def test(number): def test_in(number_in): ...

2018-04-30 12:26:26

阅读数:54

评论数:0

Python基础语法-03-私有化

私有化 Python中属性的分类 在Java中可以通过private关键字定义私有变量,Python中则通过变量名定义的格式来区分变量的访问权限 Python的类中,可以定义5种形式的变量,其功能各不相同,它们的区分依靠变量名的定义格式(Java转过来的表示这个真的很吓到我了) ...

2018-04-29 09:55:25

阅读数:35

评论数:0

Python基础语法-04-生成器,迭代器

生成器1.列表生成式在讲生成器之前,先说一个和生成器作用很类似的东西,列表生成式,其格式为:[ X for X in Y]X为一个元素,Y为一个范围,列表生成式将Y中的元素一个一个的取出来,组成一个列表使用命令行打开Python3定义一个列表生成式L,并将其输出 >> L = [ x*...

2018-04-27 10:39:06

阅读数:66

评论数:0

Python基础语法-02-异常

异常 一.异常简介 当Python检测到一个错误时,解释器就无法继续执行了,反而出现了一些错误的提示,这就是所谓的”异常” 例如: print '-----test--1---' open('123.txt','r') print '-----test--2--...

2018-04-26 20:09:19

阅读数:50

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭