- 博客(7)
- 收藏
- 关注
转载 Python机器学习篇1:基础概念和环境准备
前言:今年借着智能网络运维的机会,逐步基础到了AIOPS,而AIOPS其中很大一部分就是机器学习,所以通过网络日志数据分析的机会,想实现对于异常流量的判断(主要针对防火墙、出口设备等),借着大数据的东风,扎扎实实落地一些具体的场景。1.机器学习概念 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度...
2019-02-18 22:48:00
154
转载 scrapy爬虫2--Selector篇
网页内容的解析可以说是爬虫最主要和最核心的工作,从一堆看似杂乱的代码中获取我们需要的信息,这就是爬虫的本质。python对于网页解析提供了很多的方式,传统的即通过urllib2包获取网页代码,再通过re正则表达式模块自己写规则来获取信息。第三方的包也有,类似pyquery、lxml、BeautifulSoup。对于单个页面的抓取来说,上面的3个包都是很适合的,特别是Beaut...
2015-02-15 16:36:00
138
转载 scrapy爬虫1--基础设置篇
scrapy作为一个用python编写的网络爬虫,继承了python简单易用的特点,目前已经在很多项目中所使用。这里也是因为工作中的需要,把scrapy使用过程中的一些心得和遇到的问题记录下来以便加深记忆。scrapy安装的过程就不在这里详述了,大家安装都会碰到各种不同的问题,主要还是因为python版本,vc++版本以及scrapy版本的兼容性引起的。这里也附上我的安装及运...
2015-02-12 17:52:00
110
转载 一个查询引发的血案---记一次Oracle系统调优
昨天早上,开发人员抱怨系统很慢,可以运行但运行效率比之前慢很多,大量的提交动作卡住不动,系统呈假死状态。赶紧登录数据库服务器查看情况,首先定位数据库的系统资源(主要是cpu)的消耗情况,通过top命令查看,发现系统CPU和内存这块都正常,未出现瓶颈现象,再次思考,难道是某张或几张主表被锁导致业务阻塞? 带着这个疑问,分别查看了v$session_wait,v$lock两...
2014-03-04 16:31:00
71
转载 课程二:统计学基本原理
1.可测量数据和不可测量数据 从数据的本质上来说,统计学里将其分为可测量数据和不可测量数据,用更通俗的描述也就是数值类数据和分类数据。举个例子,人的身高是可以测量的,也就是有一个具体值的,比如178cm,179cm,是有一个固定的标准可以用工具计算出来的,此类即为可测量数据(数值类),还有一类数据,比如居住的地区,这类数据是主观上用来分类的,并没有一个固定的公式或工具计算,此类即为...
2014-03-04 14:12:00
172
转载 课程一:浅谈数据分析与挖掘
今年随着业务的需要,对于数据的要求不仅仅是存储和管理,更重要的是需要对大量数据进行分析、加工最后再决策,有鉴于此报了一门课程《SAS数据分析与挖掘》,现将学习过程中的一些心得体会记录在此,以鞭策和激励自己。上图是一个典型的数据六层的模型,按照数据的形态依次可分为:数据源----数据仓库/数据集市----数据分析----数据挖掘----数据展示----决策 其中...
2013-02-21 11:12:00
156
转载 Oracle表扫描的几种方式
最近在看数据库调优方面的资料,数据表的几种扫描方式之前也看过,但一直没有做一个详细的记录来明确这些,这次借这个机会好好学习和整理一下。1.Full Table Scans(全表扫描)这种方式是访问表最普通的方式,会扫描数据表位于高水位线之下的所有数据块。发生在没有过滤条件、缺乏主键和索引的情况下对表的访问。全表扫描是多块读,也就是一次读取多个数据块,读取的块的个数取决于DB_FILE...
2013-02-19 13:51:00
406
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人