自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(108)
  • 收藏
  • 关注

原创 社会统计课程笔记

定量变量

2022-11-02 21:42:11 433 1

翻译 复杂网络分析(三)

一 、网络上的动力学--网络的结构与功能网络的拓扑结构会影响网络的功能,而网络的功能反过来又会影响网络结构的演化1 网络的鲁棒性与抗毁性如果在移走少量节点后网络中的绝大部分节点仍然是连通的,那么该网络的连通性对节点故障具有鲁棒性。参考文献:Albert,R(2000). Error and attack tolerance of complex networks. nature,406(6794),378度分布相同网络的细致结构未必相同2 网络上的动力学网络结构是研究网络动力学

2020-11-19 16:46:48 2715

翻译 复杂网络分析(二)

一 ER随机网络-定义一个随机图是由N个节点构成并且每对节点之间的连接概率为p边数分布:满足二项分布,边数分布的平均值=p*N*(N-1)/2,平均度k=p(N-1)生成ER网络:依据平均度的取值,可以分为 亚临界(平均度小于1,不存在最大连通集团)、临界(平均度等于1,存在唯一的最大连通集团)、超临界(平均度大于1,存在唯一的最大连通集团,群规模分布是更为复杂的指数分布)、连通(平均度大于lnN,最大连通集团是稠密的,没有群规模分布)--基本性质1 随机图往往具有树形拓扑结构,

2020-11-18 16:51:50 2451

翻译 复杂网络分析(一)

一、复杂网络是复杂系统的骨架,复杂系统可以抽象成一个网络,来反映元素之间的相互作用;要想理解一个复杂系统,需要对复杂网络进行分解成单个元素,再研究他们之间的组合是如何相互作用起来的;网络分析的重要性体现在网络结构会影响功能,功能反过来也会影响结构。理解复杂系统的行为可以从理解系统相互作用网络的拓扑结构开始。网络拓扑结构的信息是研究系统性质和功能的基础。一个复杂系统由大量异质元素组成,且这些元素通过多种相互作用联系。二、复杂网络的历史欧拉 哥尼斯堡七桥➡️图论(网络研究的基础,网络结构是理解复

2020-11-10 21:45:58 5762

翻译 Spark(六) Spark MLlib

一 Spark MLlib数据挖掘=机器学习+数据库环境Spark MLlib是基于海量数据的机器学习算法库,提供了分类、回归、聚类、协同过滤、降维等功能包:spark.ml基于的是DataFrame的数据抽象二 Spark MLlib的机器学习流水线1 transformer: 即训练得到的模型,通过transformer对数据进行预测方法: transform(DataFrame)2 Estimator:即算法方法:fit()方法进行模型训练Notice:DataFr.

2020-11-10 10:39:41 333

翻译 Spark(五)Spark Streaming

一 流数据针对两种典型的数据:静态数据和流数据,对应两种不同的计算-批量计算和实时计算批量计算:MapReduce,一次性处理大规模的静态数据,无法满足秒级响应流计算:实时获取不同数据源的海量数据,经过实时分析处理,获得有价值的信息;流数据的价值随着时间流逝慢慢降低流数据框架:高性能(每秒能处理几十万条数据),海量式(支持TB、PB级的数据规模),实时性(低延迟、达到秒级别及毫秒级别),分布式(支持大数据基本架构,平滑扩展),易用性(用户可快速开发和部署),可靠性(可靠地处理流数据)

2020-11-08 20:42:53 147

翻译 Spark(四) Spark SQL

面向关系型数据库的查询和存储Spark SQL的抽象数据类型是DataFrame,是带有Schema信息的RDD。支持的语言有Java Scala PythonSpark SQL可以对结构化数据、半结构化数据和非结构化数据进行处理对于关系型数据库存储的结构化数据而言,主要做的是综合性查询分析,如汇总、求和等 count(*),average,sumSpark SQL的DataFrame打通了关系数据查询和机器学习等复杂分析算法的通道一. DataFrame1.Spark是对RDD进

2020-11-08 20:06:22 120

翻译 Spark(三) RDD

创建键值对RDD方法:·map(.split=>(word,1))----数组方式·map(word=>(word,1))---集合方式2.常用的键值对RDD转换操作(reduceByKey和groupBykey)·reduceByKey(func)--- collect the same key and transform the values into a list, then make operations based on func.wordPairsRDD.redu

2020-11-08 19:27:57 131

翻译 Spark(二) RDD

Transformation:只记录要进行的运算,但不会真正进行运算–惰性机制1. filter(func):筛选出满足函数func的元素,并返回新的数据集-lines.filter(line->line.contains('A'))2. map(func):将每个元素传递到函数func中,并将结果返回作为一个新的数据集,rdd2=rdd1.map(x=>x+10)3. flatmap(func):与map()相似,但每个输入元素都可以映射到0或多个输出结果4. reduceByKe.

2020-10-28 17:16:06 202

翻译 PySpark笔记(一)

python on spark: 使用spark提供的pyspark库来编写spark应用程序RDD: resilient distributed datasettransformations: map, flatMap,filter, distinct, reduceByKey,mapPartitions,sortByactions: collect, collectAsMap, reduce, countByKey/countByValue, take, first...

2020-10-28 16:04:16 175

原创 neo4j-admin import 总结

用neo4j-admin import直接导入可以避免load csv方法难以很好处理关系数据的问题,但存在所有数据只能导入一次,随后如果想补充数据只能把库删除,然后再重新设置默认数据库,然后重新完全导入数据了具体操作步骤:停止运行的neo4j ,执行./ neo4j stop命令 修改conf文件下的neo4j.conf 中默认的数据库名,记得第一次要把前边#注释给去掉 执行./neo4j start,会发现data/database数据库里会多一个重命名数据库的文件夹 停止运行的neo4j

2020-08-20 21:06:27 1478

翻译 在线评测系统--代码自动修复

一、在线评测系统中可识别的代码结果:Accepted 代码通过测试 Compile error 代码无法编译 Time Limit Exceeded 程序运行超出时间限制 Memory Limit Exceeded 程序运行超出空间限制 Wrong Answer 程序运行正常,但结果显示错误 Runtime Error 程序运行时崩溃 Output Limit Exceeded 程序输出达到被允许的上限二、代码自动修复:情景:代码运行成功但结果错误目的:在线评测系统可自动定位用

2020-07-02 20:54:28 845

翻译 机器学习的挑战---周志华

关于深度模型 关于监督信息 关于任务环境 一 深度模型:深度--纯数值建模任务并不擅长符号建模、离散建模任务集成学习,而非使用stack,避免overfitting1.硬件加速,限制模型的大小2.理论二 监督信息三 任务环境预测和训练数据独立同分布 类别标记恒定 属性空间恒定 评价目标恒定而现在的任务环境并不是不变的...

2020-06-14 10:30:04 205

翻译 神经网络模型设计和理论

现状:单一场景、 大量数据、大量算力大数据+大算力在现阶段起到的作用:1.更深更复杂的模型提升效果2.大规模预训练技术和基于向量的表示学习获得广泛应用2.自动化模型设计成为可能(谷歌5年前提出,AutoML)...

2020-06-13 10:59:07 488

原创 分类问题的概率校准

一 背景:对于某个不确定问题,每个人都会给出一个判断即主观概率,事物实际发生的概率是客观概率,概率校准是衡量主观概率与客观概率之间一致程度的方法,如果一个人的主观概率判断经常比客观概率大,则过份自信,相反就是过低自信。朴素贝叶斯是过分自信的分类器,支持向量机是过低自信的分类器,逻辑回归往往能给出较好的概率预测。分类器分类的结果即score,而非probability,是由于分类器给出的概率结果与真实的概率分布差别较大。分类模型得到类别概率结果有2条解决路径:1 直接建立概率分类模型,如使用l

2020-06-05 00:15:07 1499

原创 shell脚本

变量赋值1.加$表示变量取值ip=1.3.3.4echo $ip2.read 变量 表示从命令行为变量赋值eg. read -p "please input a ip: " ip3.$1为脚本运行时第一个参数,$2为脚本运行时第二的参数。$+数字为位置变量4.环境变量 export ip=3.4.4.4,作用范围为整个shell5.预定义变量: $0脚本名,$1-10是...

2020-04-28 16:26:06 130

原创 python项目架构

复杂问题简单化--分解(分离关注点)一、N层架构:表示层/视图层 业务层 数据层 领域层(实体):领域类、实体类 对应 数据库表 工具模块、公用模块-util二、模式架构myproject├── myproject│ └── __init__.py├── data│ └── data1.dat├── scripts│ └── rpm_install....

2020-04-27 18:50:59 1332

翻译 python代码规范---PEP8(python enhancement proposal)

参考资料:英文https://legacy.python.org/dev/peps/pep-0008/中文https://blog.csdn.net/ratsniper/article/details/78954852https://www.bilibili.com/video/BV1vK4y1C7rs?from=search&seid=5677796270567931885h...

2020-04-27 11:09:50 475

翻译 Hive查询

#原始数据user_id platform use_cnt is_active date_810600 2 46 1 2019010110600 2 49 1 2019010210600 2 11 1 20190103#实现去重---group bySELECT user_id,platform,is_activeFROM app.t_od_use_cntW...

2020-04-20 17:10:19 196

原创 Linux命令操作-四剑客(sed awk grep find)和vim

echo–直接输出变量值cat–合并多个文件** cat 文件名1 文件名2 >新的文件名grep(Global Regular Expression Print)–字符串搜索grep 待匹配字符 文件名 >重写到某个文件中grep -n 待匹配字符 文件名 (-n表示输出带行号)grep -v 待匹配字符 文件名 (-v表示输出结果是不包含带匹配字...

2020-01-07 11:30:45 584

翻译 正则表达式--Linux

之前更过关于正则表达式部分的内容,但一直感觉还是用的不好,所以需要再重新回炉一下。主要部分包括基础正则和扩展正则两部分,编程情景主要是在linux情景下。基础正则字符类. 匹配一个字符,除去换行符[] 匹配括号内任一字符,[abc]d可匹配ad\bd或cd 在[]括号内表示字符范围,如[0-9a-fA-F]可以匹配一位十六进制数字^ 位于[]括号内的开头,匹配除括号中的字符外的任...

2020-01-06 20:22:15 107

原创 知识图谱(一)知识表示与知识建模

知识图谱演变过程:语义网络→本体论→Web→语义网→链接数据→知识图谱(2012)一、基于语义网的知识表示RDF(resource desciption framwork) 表示数据格式:Resource:页面、图片、视频等任何具有URI标识符 Description:属性、特征和资源之间的关系 Framework:模型、语言和描述的语法RDF模型:知识是以三元组形式出现,主...

2019-10-11 15:04:56 717

原创 知识图谱(三)知识挖掘

一、知识挖掘实体消歧与连接2.知识规则挖3.知识图谱表示学习关系预测?关系推理

2019-10-11 15:04:42 720

转载 知识图谱(二)知识抽取

一、知识抽取任务(实体抽取、关系抽取、事件抽取构建数据库)从不同来源、结构的数据中进行知识抽取,形成知识存入到知识图谱结构化数据:链接数据、数据库 半结构化数据:表格列表 纯文本数据(NLP领域--信息抽取)最终形成RDF三元组、多元组事件、时序信息子任务:命名实体识别:检测及分类 术语抽取---文献资料、MOOC进行术语的抽取,形成知识点知识图谱 关系抽取 事件抽取:...

2019-10-11 13:10:06 751 1

原创 命名实体识别 序列标注 HMM 条件随机场模型(CRF)

参考资料:https://www.bilibili.com/video/av60970191?from=search&seid=3977397025416398199条件随机场:是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,特点是输出随机变量构成马尔科夫随机场。线性链条件随机场,由输入序列对输出序列预测的判别模型,形式为对数线性模型,学习方法为极大似然估计或正则...

2019-10-10 18:23:38 699

原创 贪心算法 动态规划 Viterbi算法

参考资料:https://www.bilibili.com/video/av37498689/?p=9https://mp.weixin.qq.com/s?src=11&timestamp=1570670134&ver=1903&signature=ibijzOdHanEbUnM9gOISxIxqZdLpwowiooDHlxccT3xxmkKomoCjCSG1uASv...

2019-10-10 09:25:36 643

原创 哈希表

一、哈希表别称:关联数组、映射、特征表和字典哈希表作为一种抽象数据类型,包括数据成员和增删改查操作、哈希、冲突及解决方案(open address)在Python中是一种字典的存在,那么,可以作为Key的数据类型是int,float,str,object,不可以的数据类型是bool,list,tuple,dict,set原因是:list,tuple,dict,set是mutable 可...

2019-09-25 12:14:16 554

原创 python内置数据结构

参考资料:https://docs.python.org/3.7/library/collections.htmlhttps://link.zhihu.com/?target=https%3A//pymotw.com/3/collections/index.htmlhttps://www.bilibili.com/video/av59800932?from=search&seid=...

2019-09-23 15:05:26 338

原创 查找问题

主要包括两类查找问题:查找有无:set 查找对应关系(键值对):某元素的索引 dict,key-value,key不允许重复在set和map两个数据容器,主要的功能包括insert del change find练习一:leetcode上的349https://leetcode-cn.com/problems/intersection-of-two-arrays/练习二:...

2019-09-23 10:37:14 524

原创 数据结构(三)树

在此进行实现的主要是二叉树,其具备广度优先、深度优先两种存储和遍历方式对于广度优先而言,进行存储的方式是队列,先存进去一个节点,再将其取出,将其左右节点加入列表,即从一端存从另一端取,先存的需要先取class Node(object): def __init__(self,value,lchild=None,rchild=None): self.value=val...

2019-09-22 16:17:24 878

原创 数据结构(二)栈和队列

栈:只有一个操作口,先进后出队列:两个操作口,一个负责进,另一个负责出,先进先出这两种数据结构可通过线性表进行存储,即可用顺序表或链表,而对于这两种数据结构主要注重的是对数据的处理方式以下是对其使用顺序表的实现:对于栈而言,需要根据存储结构对应的时间复杂度确定栈底和栈顶,存在线性表,插入尾部元素为O(1),头部为O(n),栈顶为尾部 存入链接表,插入头部为O(1),尾部为O(...

2019-09-21 19:41:15 93

原创 数据结构(一)链表

在逐渐的编程过程中,发现数据结构和算法很重要,虽然自己本科时候学过数据结构,但主要是以理论为主并没有编程实现,所以感觉对它的了解还不是很透彻(but 数据结构当时可是考满分呢hhhh)那就重新再捡起来,好好透彻地实战一下啦!这次用python进行数据结构的实现参考资料:https://www.bilibili.com/video/av66834101/?p=5那我主要想关注的点 是...

2019-09-21 19:03:47 168

原创 Git使用

参考资料:https://www.bilibili.com/video/av8261658?p=2https://www.bilibili.com/video/av29968708创建仓库_git init 2.创建文件-工作区 3.提交文件到缓存区,git add 4.把文件从缓冲区添加到repository, git commit ...

2019-09-20 21:33:20 135

原创 Bert 代码详细解读——tokenization.py

参考资料:https://mp.weixin.qq.com/s/hzPQHz9Si01ODdvU3i02ow在tokenization文件里共有3个class和11个函数1.def validate_case_matches_checkpointdef validate_case_matches_checkpoint(do_lower_case, init_checkpoint):...

2019-09-18 21:01:49 2355 5

原创 数据结构-时间复杂度

参考资料链接:https://www.bilibili.com/video/av53583801?t=733&p=8时间复杂度:O()n表示数据规模,O(f(n))表示运行算法所需要执行的指令数,和f(n)成正比主要针对处理大规模的数据在学术界,O(f(n))表示算法执行的上界,即算法复杂度是O(nlogn)同时也是O(n^2),但在业界,用O来表示算法执行的最低上...

2019-09-18 21:00:57 508

转载 Python魔术方法__getitem__、__setitem__、__delitem__、__len__

参考资料:https://blog.csdn.net/yuan_j_y/article/details/9317817

2019-09-18 15:27:13 159

原创 python 面向对象编程

参考资料:https://www.bilibili.com/video/av63023287一、类的创建class Sweet_potato: def __init__(self,status,color,shape): self.status=status self.color=color self.shape=shape ...

2019-09-18 09:46:03 89

原创 Bert踩坑总结—————分类准确率过低

使用bert进行文本分类,主要踩的坑有:数据格式,看自己写的类中如何提取标签和文本 fine-tuning的配置,除了指定文件路径外,可以调整学习率为万分之一到十万分之一之间 fine-tuning中train.sh看是哪个模型保存了,要在predict.sh中引用 如果运行结果多次不变,就删除eval_output中的模型,重新跑一次数据集一定要Shuffle!!!!这是我调试ber...

2019-09-17 08:47:08 17139 9

原创 python ---assert

参考资料:https://blog.csdn.net/hunyxv/article/details/52737339作用:判断一个程序的错误条件,声明布尔值为真的判定,即raise-if-not,返回值为假就会触发异常下为一个自定异方式class ShortInputException(Exception): def __init__(self,length,atleast)...

2019-09-14 13:48:03 116

原创 Vim操作

参考资料:https://www.bilibili.com/video/av37130822/?spm_id_from=333.788.videocard.0vim有两种模式:command和edit,刚进入时模式是command,需要点击i进入edit编辑模式点击esc退回到command模式,:wq 文件名 表示保存退出,且进行命名 :set number对文件进行行号设置 ...

2019-09-05 16:47:06 81

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除