自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (1)
  • 收藏
  • 关注

原创 Solidity迁移Flow Cadence指南13-Flow 1000+合约大数据分析

熟读唐诗三百首,不会做诗也会吟,Flow合约哪里读?自然是链上了,Flow的链上合约都是开源的,只要知道合约地址,都可以直接使用API获得具体的合约代码。本节就把flow链上的主要合约下载下来,然后分析,哪些可以读,哪些可以抄@#¥@#¥数据来源本文主要分析合约账号数据,在以太坊中,可以通过地址的code类型来判断是否为合约地址,Flow中也是类似的,Flow账号的数据结构如下所示:message Account { bytes address uint64 balance bytes code r

2022-06-23 22:43:08 3430

原创 以太坊Solidity迁移Flow Cadence指南7-ERC20/TOKEN迁移

Flow作为专门为NFT设计的区块链,其合约语言主要侧重于NFT功能,当然,实现基本的ERC20 token 更不在话下。由于ERC20合约相对比较简单,迁移也比较容易,因此,本节在完成迁移讲解的同时,重点对比下ERC20 token和Flow token合约的差异,并探讨下Flow的token 空投问题。标准ERC20合约分析以太坊ERC20 Token核心功能大致是这样的:contract ERC20Basic {mapping(address => uint256) balances; // 余额fu

2022-06-17 21:56:54 2688

原创 以太坊Solidity迁移Flow Cadence指南8-ERC721/NFT迁移

序言本小节是本系列短文的核心章节,主要介绍如何将solidity标准的ERC721合约迁移到flow cadence,大家前面也学了这么多了,就看这一节了!!!什么?前面几节都没看到。本来2022.5月就要写完的,结果5月笔者一直足不出户在家办公,主要在研究如下内容: 图 1 用做菜的思路迁移代码笔者发现,有一种叫做“预制菜”的东西,不用开荒种地,不用掌握油盐酱醋配比,锅里一放,简单炒炒就是等级厨师的作品了。。。嗯,solidity ----> cadence 迁移是否也能采用“预制菜”模式呢?给你想要的!

2022-06-16 16:18:51 2869

原创 以太坊solidity迁移flow cadence指南11 ---NFT盲盒应用

NIST Warning:阅读本文,需要至少幼儿园中班数学水平,要能数到10!对那些只会1以内加法的码农,请在有经验的码农陪同下观看本文。背景知识本节主要介绍cadence随机数在盲盒中的应用。盲盒玩法是很多NFT的首选,从NBA Top Shot 到冰墩墩,都是如此。区块链盲盒最大的魅力就在于其“公平、公正、公开”的随机性。而如何保证这个“随机性”,则是盲盒合约编写的关键。这里就先介绍一点点数学背景知识:首先,计算机基本是无法产生真正“随机数”的,主要是计算机的精度总是有限的。当然,计算机可以产生在大家有

2022-06-06 22:49:08 556

原创 以太坊Solidity迁移Flow Cadence指南-0:前言

本文主要面向有一点区块链合约开发基础的码农,写过solidity等语言,希望看看新的Flow区块链是怎么样的,为什么NBA、冬奥会都选择了flow区块链发行NFT,以及是否能快速迁移到Flow。首先还是讲一个大家最常问的问题,为什么选择Flow?类似的文章也非常多了。不过,不认可的还是不认可@#¥@#¥,主要还是因为从未真正了解过。这里笔者就直接PUA 了:“面向资源的编程,才是NFT的未来”。真正写了、部署了flow合约,才能体验到flow的魅力,谁用谁知道。图1 Flow/C..

2022-05-31 00:26:40 189

原创 hadoop2.0 做spider下载集群的设置

hadoop一般设置中,一个map或者reduce用到的内存一般设置是1G内存,但作为下载来用,显然是浪费的,一个下载代码用到的内存顶多几十M,而且因为主要耗时是在网络,因此一个cpu可以做几十个下载进程都没啥问题。hadoop一般一个cpu就只跑一个map/reduce.    因此需要对hadoop的设置进行优化,否则就太浪费了。最核心的设置如下,这里用的是阿里云的云服务器

2015-06-27 22:41:14 988

原创 分词研究中的最小描述长度(Minimum description length)方法

a bab a ba         MDL(minimum description length,最小描述长度) 原理是 Rissane 在研究通用编码时提出的。其基本原理是对于一组给定的实例数据 D , 如果要对其进行保存 ,为了节省存储空间, 一般采用某种模型对其进行编码压缩,然后再保存压缩后的数据。同时, 为了以后正确恢复这些实例数据,将所用的模型也保存起来。所以需要保存的数据长度(

2014-05-09 11:08:54 8646

原创 无监督分词中ngram片段的基础特征总结

无监督

2014-05-05 16:04:29 2915 1

原创 bing的搜索api简介

现在提供api的搜索不多了,主要就是bing

2014-04-09 18:06:54 5274

原创 蛋白质二级结构预测-Chou-Fasman预测方法

Chou和Fasman提出了二级结构的经验规则,其基本思想是在序列中寻找规则二级结构的成核位点和终止位点。在具体预测二级结构的过程中,首先扫描待预测的氨基酸序列,利用一组规则发现可能成为特定二级结构成核区域的短序列片段,然后对于成核区域进行扩展,不断扩大成核区域,直到二级结构类型可能发生变化为止,最后得到的就是一段具有特定二级结构的连续区域。下面是4个简要的规则:1、α螺旋规则 

2014-04-03 13:13:07 9511

原创 做一个新闻阅读类的app(1): 概要设计

学习做一个新闻阅读类的app,最简单的,只两个界面1 列表页,简单列出文章标题,发表时间等列表。列表页内容通过一个http服务,拉取json格式的数据。2 内容页,展示文章的详细内容。    列表页用ListView控件,而内容页则采用webview来直接加载网页链接,由于网页很多都是pc的,需要转成移动端可以阅读的,目前常用的转码服务:1 baidu的。http://ga

2014-03-10 22:40:53 1479

原创 统计分词/无字典分词学习(7): 模型方法

前面几篇讨论的统计分词基本都是基于这样一个理念,首先,把所有的ngram片段都当成候选词,这些ngram的概率可以用极大似然估计获得;然后,选择一系列指标来过滤这些ngram片段,主要的指标包括词频、互信息、边界熵三个指标,对每个指标,又可以有不同的变形,此外还有形式熵等其他的一些类似指标。但这种做法,存在一个主要问题是,如何选取不同指标的阈值,来构造最终的词典,实践中,往往就是反复的做实验,

2014-01-03 14:44:11 1580

原创 统计分词/无字典分词学习(5):候选片段的过滤方法,边界稳定性

互信息主要是过滤掉那些内部结合不紧密的片段,但只过滤掉了3%的无意义片段,而我们会发现,大量的不是词的片段是这样的形式:informa、informat、informati,informatio这样的,属于information这个高频词一部分的片段。这些片段因为是某个词的一部分,因此,有这样一个明显的特点,就是其后续的一个字母或者几个字母非常固定。如informa,后续的一个字母只有l和

2013-12-26 18:07:57 1118

原创 统计分词/无字典分词学习(4):候选片段的过滤方法,互信息过滤

从上一篇文章的分析中可以看到,top100万的片段中,只有不到3万是真正的词,因此,我们要把一些不是词的片段给过滤掉。一个片段要成为一个词,首先其内部的字母之间连接要足够紧密。一般可以用mi来衡量这个指标,如两个字母"h","e"要成为一个词,其出现的概率P("he")应该大于其完全独立的概率,即P("he")>P("h")P("e"),这时,我们才认为“he”是一个词。而对于“she”这样多

2013-12-26 14:28:37 1184

原创 统计分词/无字典分词学习(3):分词效果评价和基线

在上一篇文章中,我们已经有了100万个候选词和其对应的词频,利用这些数据,我们已经可以进行分词了,就是利用前面分词介绍中的最大概率分词。我们将标准词典分出来的词和利用这100万个词的候选词典,对同一个句子进行分词,然后比较两者的分词结果,就可以获得分词的准确率和覆盖率。其中准确率就是候选词典分出来的词,在标准分词中出现的比例,而覆盖率,则是标准分词中在候选词典分词的结果中出现的比例。如

2013-12-26 13:02:27 1370

原创 统计分词/无字典分词学习(2):n-gram词频统计

我们现在面对的是“wheninthecourseofhumaneventsitbecomesnecessary”这样一堆语料,要获取词典,怎么办?第一步肯定是找到所有可能是词的片段了,常用的方法就是n-gram切分了,如假设词的最大长度是3,则句子“abcd”的n-gram切分就是:1-gram切分:a b c d2-gram切分:ab bc cd3-gram切分:abc bcd

2013-12-25 19:23:25 7400

原创 统计分词/无字典分词学习(1):介绍和语料准备

分词算法中,一般都需要一个词典,但这些词典往往很难覆盖所有的词,特别是在一些专业领域,甚至有超过40%的词都不在词典里面,这样首先就需要“学习”大量的新词,否则分词准确性很难提高,进一步的,有研究就干脆不要词典了,由算法自动从大量的语料中学得一个词典,这就是统计分词,或者成为无字典分词。一般就只预设一个小规模的词典,后者没有词典,首先从大量的未标注语料,也就是生语料中学习出一个词典,然后利用这个词

2013-12-24 19:22:45 1800 1

原创 分词学习(3),基于ngram语言模型的n元分词

最大概率分词中,认为每个词的概率都是独立的,但是有一部分词,其切分却与前一个词密切相关,特别是中文分词中更为明显,英文中就是如上一篇文章中的“tositdown”的例子。         这样就可以使用2元模型,就是如一个分割形式"ab cde f"的概率,如果按照1-gram计算:P(ab cde f) = P(ab)*P(cde)*P(f)如果按照2-gram计算:P(ab cde

2013-12-24 17:42:32 10552

原创 分词学习(2),最大概率分词

目前开源分词里面,最常用的还是最大概率分词,就是针对一个序列,获得一个概率最大的分词方式。如“abcde”,可能的分法有“abc de”,“a b cde”等等共2^(n-1)种,n为字符串的长度,如果取全部的切分形式,计算量会非常大。     我们一般会采用n-gram模型,就是假设一个词只与前n个词有关系,如n=1,就是假设所有的词都是独立的,因此一个分割形式的概率,就是各个分割词的概

2013-12-24 16:56:38 3074

原创 分词学习(1)--正向最大匹配分词

汉字分词最简单的就是正向最大匹配分词了,其基本原理很简单,而且经常作为笔试题。         该算法主要分两个步骤:1 一般从一个字符串的开始位置,选择一个最大长度的词长的片段,如果序列不足最大词长,则选择全部序列。2 首先看该片段是否在词典中,如果是,则算为一个分出来的词,如果不是,则从右边开始,减少一个字符,然后看短一点的这个片段是否在词典中,依次循环,逐到只剩下一个字。3

2013-12-24 15:06:00 1434

转载 在csdn写技术博客吧,哈哈哈

在csdn写技术博客吧,哈哈哈

2013-12-10 13:08:19 545

简单的文本特征提取,学习使用

简单的文本特征提取 简单的文本特征提取,学习使用

2010-07-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除