自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(145)
  • 收藏
  • 关注

原创 python计算机视觉示例图片数据集分享

链接:https://pan.baidu.com/s/1AVu8bPa-xsf_Y7igbF3CRg提取码:o7kq

2020-01-07 10:18:31 451

原创 121221

卷积定理是对两个函数进行加权平移叠加,连续域的卷积如下:F(x)=∫_(-∞)^∞▒〖f(x’)g(x-x’)dx’〗图数据结构的傅里叶变换依赖于拉普拉斯矩阵的特征向量,因此使用正则化拉普拉斯矩阵L来表示图数据的结点的边信息:L=I-D^(-1/2) AD^(-1/2)其中A为图的邻接矩阵,D为结点度的矩阵,根据正则化拉普拉斯矩阵的对称半正定性质,使用特征向量矩阵U和特征值矩阵Λ来表示L:...

2019-12-16 16:55:30 468

原创 图像处理(1)基本概念

1.1基本概念图像处理的概念是对图像信息进行加工处理,以满足人的视觉心理和实际应用的需求。模拟图像:连续图像,采用数字化(离散化)表示和数字技术处理之前的图像。数字图像:由连续的模拟图像采样和量化而得的图像,组成其基本单位是像素。像素的值代表图像在该位置的亮度或灰度,称为图像的灰度值。数字图像像素具有整数坐标和整数灰度值。1.2图像增强:调整图像的对比度,突出重要细节,改善图像质量。...

2019-11-18 13:05:03 1427 1

原创 关联数据

关联数据:将Web中的分布式数据连接起来关联数据的四条原则:1.使用URI作为任何事物即资源的标识名称2.使用HTTP URIs3.当访问某个URI时,使用W3C标准形式rdf提供资源的有用信息4.尽可能链接到其他URI,使人们发现更多的资源和信息 owl:sameAsRDF链接有两类,一类是通用的,如owl:sameAs、rdfs:seeAlso等,另一类是领域相关的,如spa...

2019-09-03 14:33:33 2156

原创 元数据实例

宫颈癌:都柏林地区开放数据key setence:dcat:contactPoint[ a vcard:Organization;vcard:fn “Not supplied”;vcard:hasemail “Not supplied”];dcat:keyword “1”,“2”,“3”,…;JSON 格式:“dcat:contactPoint”:{"@id":"-:...

2019-06-11 17:24:14 1762

原创 元数据:描述开放数据集

元数据(Metadata):描述数据的数据都柏林核心元素集(Dublin Core Element Set 简称DC)http://lov.okfn.org/dataset/lov/vocabs/dce核心元数据元素集:TitleCreatorSubjectDescriptionPublisherContributorDateTypeFormatIdentifierSo...

2019-06-11 14:19:53 898

原创 FOAF

FOAF:Friend of a Friendontology that describes people, the link between them and the thing they create and do.Core FOAF Vocabulary:foaf:Persona rdfs:Class;rdfs:label “Person”;rdfs:comment “A p...

2019-06-11 09:06:57 1138

原创 OWL

OWL:Web Ontology LanguageOWL = RDF Schema + new constructs of better experssivenessdefining classes:<owl:Class rdf:about=""> </owl:Class><owl:Class rdf:about=""><rdfs:subCla...

2019-06-04 19:02:10 238

原创 RDFS

Rdfs描述类、子类与属性定义类:Rdfs:Resource,rdf:Literal,rdfs:Datatype,Rdfs:Class定义属性:Rdfs:rangeRdfs:domainRdfs:subClassOfRdfs:subPropertyOfRdfs:labelRdfs:comment其他:Rdfs:seeAlsoRdfs:isDefinedBy定义类eg:...

2019-06-03 20:20:07 586

原创 ontology本体

本体ontology的形式化定义:owl:equivalentClassrdfs:subClassof<owl:Class rdf:about"">.</owl:Class><owl:ObjectProperty rdf:about=""><rdf:type rdf:resource= “”/><rdf:domain rdf:r...

2019-06-03 18:43:52 459

原创 RDF串行化

串行化;将数据表示成字符的序列方式一:XMLSyntax方式二:Turtle一:XML方式eg:rdf:RDF-根元素rdf:RDF </rdf:RDF>rdf:Description and rdf:about -陈述的主体<rdf:Description rdf:about=“URI of the statement’s subject”>&l...

2019-06-02 14:20:06 392

原创 RDF基础

RDF:Resource Description Framework 资源描述框架Resources:资源everything can be identified as a resourceDescription: 描述 attributes,features,relations concerning the resourceFramework:框架 provide models langu...

2019-06-01 16:15:56 550

原创 java基础

set 命令配置临时环境变量classpath环境变量:设置了classpath环境变量的时候,启动java虚拟机的时候就会根据classpath环境变量所保存路径信息下去搜索对应的class文件注意classpath路径中分号的添加:没有分号:java虚拟机仅会在classpath所保存的路径下去搜索对用的class文件,不会在 当前路径下去搜索,而有分号,还会在当前路径下去搜索(分号:表...

2019-06-01 14:31:53 134

原创 java2

计算机语言:更好与计算机进行交互计算机的发展历史:机器语言----汇编语言(英文单词代表指令)----高级计算机语言java历史:1995 sunjava重要特性:跨平台性java虚拟机:解析class文件通知系统要执行哪些操作,不能跨平台:相同的资源在不同的操作系统上所需的指令不一样...

2019-05-29 14:51:24 129

原创 计算机基础

计算机=硬件+软件硬件:cpu:cpu是计算机的运算与控制核心, 负责了解计算机的指令、与计算机运算的执行。内存:数据与cpu交互的桥梁,程序所需要的数据都会先加载到内存中,cpu是直接读取到内存中数据运算的。特点:存取速度快。缺点:断电或者程序退出的时候,内存中的数据都会丢失。硬盘(机械硬盘和固态硬盘):可以永久保存数据,缺点:存取速度慢。固态硬盘:读取速度非常快。软件:软件就是按照...

2019-05-29 11:19:27 195

原创 概率统计

C.1概率随机实验是测量其结果不确定的过程的实验;随机实验的所有可能结果的集合称为样本空间;事件对应于这些结果的一个子集。概率密度函数联合概率函数条件概率期望值;方差C.2 统计学基于样本数据提取关于总体的可靠结论的过程称作统计推理。C.2.1 点估计统计量是指从样本数据推导出的数值量,两个有用的统计量是样本均值和样本方差。使用样本统计量估计总体参数的过程称为点估计。C.2.2...

2018-12-12 15:45:14 287

原创 线性代数-矩阵

A.2 矩阵A.2.1 矩阵:定义矩阵是把数集合汇聚成行和列的一种表表示。大写字母表示、方阵、转置、行列向量A.2.2 矩阵:加法和与标量乘法矩阵加法:必须形同,对应元素相加矩阵加法满足:交换律、结合律、零矩阵、加法逆元性矩阵的标量乘法:对应元素的标量乘积矩阵标量乘法满足:结合律、分配律、单位元A.2.3 矩阵:乘法矩阵与列向量相乘、矩阵与行向量相乘、矩阵与矩阵相乘:列数等于行...

2018-12-12 14:36:58 344

原创 线性代数-向量

A.1 向量A.1.1 定义向量是一个具有量值和方向的量。A.1.2 向量加法和向量与标量乘法加法满足:交换律、结合律、零加性、加法逆元标量乘法满足:结合率、分配律、单位元A.1.3 向量空间向量空间是向量的集合,连同一个相关联的标量集,满足加法和标量乘法性质,并且关于向量加法和标量乘法都是封闭的。向量空间中的任何向量都可以用一组称作基向量的向量的线性组合来表示。基向量生成了该...

2018-12-11 10:31:42 390

原创 信息的度量和作用

1948年,香农的著名论文《通信的数学原理》提出了信息熵的概念,才解决了信息的度量问题,并量化出信息的作用。1.信息熵2.信息的作用信息的作用就是消除不确定性。几乎所有的自然语言处理、信息与信号处理的应用都是一个消除不确定性的过程。实际中,相关性的信息也能消除不确定性,为此理论上引入条件熵概念:3.互信息香农在信息论中提出了一个互信息的概念作为两个随机事件”相关性“的量化度量:...

2018-12-10 22:37:15 1316

原创 UDP编程

import socket#服务器首先需要绑定端口s = socket.socket(socket.AF_INET,socket.SOCK_DGRAM)#SOCK_DGRAM指定了这个Socket的类型是UDP#绑定端口s.bind(('127.0.0.1',9999))print('Bind UDP on 9999....')while True: #接受数据 da...

2018-12-10 22:18:28 155

原创 TCP编程

#导入socket库import socket#创建一个sockets = socket.socket(socket.AF_INET,socket.SOCK_STREAM)#AF_INET指定使用IPv4协议,如果要用更先进的IPv6,就指定为AF_INET6#SOCK_STREAM指定使用面向流的TCP协议#建立链接s.connect(('www.sina.com.cn',80...

2018-12-10 22:17:36 177

原创 网页分割爬虫

通过网页分割,计算机可以像人眼感知网页语义结构一样,区分出不同信息块的语义角色,进而准确定位所要抽取信息的位置,从原本半结构化的网页数据中,抽取结构化语义信息...

2018-12-05 22:09:25 217

原创 python内置模块

from collections import namedtuplePoint = namedtuple('Point',['x','y'])p = Point(1,2)pPoint(x=1, y=2)from collections import dequeq = deque(['a','b','c'])q.append('x')q.appendleft('y')qde...

2018-12-05 20:46:41 186

原创 异常检测

10.1预备知识10.1.1异常的成因数据来源于不同的类自然变异数据测量和收集误差10.1.2 异常检测方法基于模型的技术:不能很好地拟合模型的对象,一般判别为异常基于邻近度的技术:在对象之间定义邻近性度量,原理大部分对象的一般判别为异常基于密度的技术:低密度区域中的对象相对远离近邻,被看作异常10.1.3类标号的使用异常检测有三种基本方法:非监督、监督、半监督,主要区别在于类...

2018-12-05 17:07:22 675

原创 DBSCAN及簇评估

8.4 DBSCAN基于密度的聚类寻找低密度区域分离的高密度区域。8.4.1 传统的密度:基于中心的方法基于中心的方法:数据集中特定点的密度通过对该点半径之内的点计数来估计根据基于中心的密度进行点分类:点分类:稠密区域内部点(核心点)、稠密区域边缘点(边界点)、稀疏区域中的点(噪声点)8.4.2 DBSCAN算法1.时间复杂性与空间复杂性2.选择DBSCAN的参数半径参数Eps...

2018-12-04 20:52:11 3213

转载 基于标题的机器学习网页分割方法

该方法通过机器学习获取网页标题的特征, 利用标题实现网页分割。1.利用网页行块分布函数和网页标题标签学习得到网页标题特征2.基于标题将网页分割成内容块3.利用块深度对内容块进行合并, 完成网页分割网页分割流程的具体解释如下:首先读取网页文档, 解析其中每一行的行深度, 组织成为一张行深度表。对网页文档进行规范化。本方法中无需使整个文档符合HTML规范, 只需要做两步处理: (1) 若...

2018-12-04 20:50:26 246

原创 爬虫解析技术趋势

爬虫开发过程的解析网页工作占据了开发工作的80%左右,编写解析代码,虽然有一些基本工具chrome,firecdebug可以使用,但始终需要人工分析,编写解析规则。无论是使用xpath,正则表达式,css selector,都不能减少这一部分的工作量。智能化解析既然网页解析工作量大,重复性高,那么能否利用当前的人工智能来对网页进行自动化解析呢,这样就可以不用人工编写,减少工作量的同时,也可以大...

2018-12-04 20:17:21 540

原创 基于原型的聚类

9.2 基于原型的聚类基于原型的聚类,簇是对象的集合,其中任何对象离定义该簇的原型比离定义其他簇的原型更加接近。9.2.1 模糊聚类1.模糊集合:允许对象以0和1之间的某一个隶属度属于某一个集合2.模糊簇:权值之和为1,每个簇至少包含一个非零权值点3.模糊c均值:k均值的模糊版本(fcm)计算SSE误差平方和初始化:随机初始化计算质心:最小化SSE来推导出质心:更新模糊伪划...

2018-12-02 19:56:39 1858

原创 Scrapy框架

Spider爬取的循环流程:利用入口URL来初始化Request,此Request下载完毕返回Response并作为参数传给回调函数parse在回调函数内分析Response,返回Item对象和Request的可迭代容器其中返回的Request经过Scrapy处理,下载相应内容,调用回调函数在回调函数中,可以使用选择器或其他解析器来分析response,并根据分析数据生成Item和Req...

2018-11-30 17:01:54 141

原创 弹幕审核与直播监管

1.直播行业现状、问题与监管方向现状:近年来,随着网速的提高以及移动智能设备的普及,用户观看视频的习惯和需求已经被培养起来,短视频与直播成为业界公认的媒体“流量黑洞”。CNNIC发布的第41次《中国互联网络发展状况统计报告》显示,截止2017年12月,我国网络直播用户规模达到4.22亿,较2016年增长22.6%。[1]据人民网报道,2016年7月11日,网红“papi酱”在8大网络直播平台进...

2018-11-29 12:11:34 5293

原创 八 聚类分析 基本概念与算法2

8.3 凝聚层次聚类凝聚的;分裂的8.3.1 基本凝聚层次聚类算法从个体点开始,相继合并两个最接近的簇,直到只剩一个簇。1.定义簇之间的邻近性2.时间和空间复杂度8.3.2 特殊技术1.样本数据2.单链MIN3.全链MAX或团4.组平均5.Ward方法和质心方法Ward方法:两个簇的邻近度定义为两个簇合并导致的平方误差的增量8.3.3 簇邻近度的Lance-Willia...

2018-11-29 10:25:39 366

原创 八 聚类分析:基本概念和算法1

8.1 概述8.1.1 什么是聚类分析聚类分析是根据在数据中发现的描述对象及其关系,将数据对象分组。聚类分析目标是组内的对象互相之间是相似的,而不同组中的对象是不同的。聚类与分类:聚类分析可以理解为非监督分类8.1.2 不同的聚类类型层次的与划分的:簇的集合是嵌套还是非嵌套互斥的、重叠的与模糊的:模糊聚类中每一个对象相对于每个簇都有一个隶属权值完全的与部分的:是否将每一个对象都必须...

2018-11-26 14:35:09 422

原创 selenium爬取去哪网酒店信息

直接上代码# -*- coding: utf-8 -*-"""Created on Sat Nov 24 11:20:24 2018@author: DMU刘小强"""from selenium import webdriverimport timefrom bs4 import BeautifulSoupimport datetimeimport codecsfrom s...

2018-11-24 20:57:04 1141

原创 访问限制

在class内部,可以有属性和方法,而外部代码可以直接调用实例变量来操作数据,这就隐藏了内部的复杂逻辑但是,有些变量不想被外部代码随意修改,这就可以添加访问限制如果要让内部属性不被外部对象访问,可以把属性名前加上两个下划线在python中如果以__开头,就变成了私有变量,只有内部可以访问,外部不能访问class Student(object): def __init__(self,...

2018-11-24 18:35:59 243

原创 动态网站爬虫框架

下载器import requestsclass HtmlDownloader(object): def download(self,url): if url is None: return None user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:64.0) ...

2018-11-24 09:06:24 317

原创 七 关联分析:高级概念1

7.1 处理分类属性二元化分类属性7.2 处理连续属性包含连续属性的关联规则通常称为量化关联规则7.2.1 基于离散化的方法将连续属性的邻近值分组,形成有限个区间。如何确定区间宽度:考虑临近区间的每种可能分组。7.2.2 基于统计学的方法1.规则产生:频繁项集2.规则确认:当由规则覆盖的事务计算的统计量不同于未被规则覆盖的事务计算的统计量7.2.3 非离散化方法min...

2018-11-23 16:07:06 328

原创 六 关联分析 基本概念和算法3

6.6 FP增长算法6.6.1 FP树表示法6.6.2 FP增长算法的频繁项集产生6.7 关联模式的评估客观兴趣度度量:支持度;置信度和相关性等主管论据度量:6.7.1兴趣度的客观度量提升度:规则置信度和规则后件中项集的支持度之间的比率二元变量,提升度等价于兴趣因子:相关分析:连续变量:皮尔森相关系数二元变量:IS度量其他客观兴趣度度量2.客观度量...

2018-11-22 21:10:33 285

原创 连接MySQL

import pymysql#打开数据库conn = pymysql.connect(host="127.0.0.1",port=3306,user="root",passwd="1996",db="sakila",charset="utf8")cur = conn.cursor()sql = "select * from actor"cur.execute(sql)row

2018-11-22 17:07:06 194

原创 基础爬虫框架

URL管理器:class UrlManager (object): def __init__(self): self.new_urls = set() #未爬取URL集合 self.old_urls = set()#已爬取URL集合 def has_new_url(self): #判断是否有未爬取的URL ret...

2018-11-22 10:05:06 179

原创 六 关联分析 基本概念和算法2

6.2.3 候选的产生与剪枝(1)候选项集的产生:该操作由前一次迭代发现的频繁项集(k-1)项集产生新的候选k项集(2)候选项集的剪枝:采用基于支持度的剪枝策略候选产生过程:蛮力方法:把所有k项集看作可能候选F(k-1)*F(1)方法:用其他频繁项集来扩展每一个频繁k-1项集F(k-1)*F(k-1)方法:合并一对频繁k-1项集,仅当它们的前k-2个项都相同6.2.4 支持度计...

2018-11-22 09:57:42 444

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除