afhv5339-CSDN博客

转载 Python机器学习篇1：基础概念和环境准备

前言：今年借着智能网络运维的机会，逐步基础到了AIOPS，而AIOPS其中很大一部分就是机器学习，所以通过网络日志数据分析的机会，想实现对于异常流量的判断（主要针对防火墙、出口设备等），借着大数据的东风，扎扎实实落地一些具体的场景。1.机器学习概念机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度...

2019-02-18 22:48:00 154

转载 scrapy爬虫2--Selector篇

网页内容的解析可以说是爬虫最主要和最核心的工作，从一堆看似杂乱的代码中获取我们需要的信息，这就是爬虫的本质。python对于网页解析提供了很多的方式，传统的即通过urllib2包获取网页代码，再通过re正则表达式模块自己写规则来获取信息。第三方的包也有，类似pyquery、lxml、BeautifulSoup。对于单个页面的抓取来说，上面的3个包都是很适合的，特别是Beaut...

2015-02-15 16:36:00 138

转载 scrapy爬虫1--基础设置篇

scrapy作为一个用python编写的网络爬虫，继承了python简单易用的特点，目前已经在很多项目中所使用。这里也是因为工作中的需要，把scrapy使用过程中的一些心得和遇到的问题记录下来以便加深记忆。scrapy安装的过程就不在这里详述了，大家安装都会碰到各种不同的问题，主要还是因为python版本,vc++版本以及scrapy版本的兼容性引起的。这里也附上我的安装及运...

2015-02-12 17:52:00 110

转载一个查询引发的血案---记一次Oracle系统调优

昨天早上，开发人员抱怨系统很慢，可以运行但运行效率比之前慢很多，大量的提交动作卡住不动，系统呈假死状态。赶紧登录数据库服务器查看情况，首先定位数据库的系统资源(主要是cpu)的消耗情况，通过top命令查看，发现系统CPU和内存这块都正常，未出现瓶颈现象，再次思考，难道是某张或几张主表被锁导致业务阻塞？带着这个疑问，分别查看了v$session_wait,v$lock两...

2014-03-04 16:31:00 71

转载课程二：统计学基本原理

1.可测量数据和不可测量数据从数据的本质上来说，统计学里将其分为可测量数据和不可测量数据，用更通俗的描述也就是数值类数据和分类数据。举个例子，人的身高是可以测量的，也就是有一个具体值的，比如178cm，179cm，是有一个固定的标准可以用工具计算出来的，此类即为可测量数据（数值类），还有一类数据，比如居住的地区，这类数据是主观上用来分类的，并没有一个固定的公式或工具计算，此类即为...

2014-03-04 14:12:00 172

转载课程一：浅谈数据分析与挖掘

今年随着业务的需要，对于数据的要求不仅仅是存储和管理，更重要的是需要对大量数据进行分析、加工最后再决策，有鉴于此报了一门课程《SAS数据分析与挖掘》，现将学习过程中的一些心得体会记录在此，以鞭策和激励自己。上图是一个典型的数据六层的模型，按照数据的形态依次可分为：数据源----数据仓库/数据集市----数据分析----数据挖掘----数据展示----决策其中...

2013-02-21 11:12:00 156

转载 Oracle表扫描的几种方式

最近在看数据库调优方面的资料，数据表的几种扫描方式之前也看过，但一直没有做一个详细的记录来明确这些，这次借这个机会好好学习和整理一下。1.Full Table Scans(全表扫描)这种方式是访问表最普通的方式，会扫描数据表位于高水位线之下的所有数据块。发生在没有过滤条件、缺乏主键和索引的情况下对表的访问。全表扫描是多块读，也就是一次读取多个数据块，读取的块的个数取决于DB_FILE...

2013-02-19 13:51:00 406

afhv5339的博客