【行业新闻】
01 三大通信运营商数据资源均已入表
中国移动作为首家披露数据资源价值的上市央企和三大通信运营商之一,其半年报显示入表金额达7000万元,无形资产2900万,开发支出4100万。报告提及,无形资产主要包括土地使用权、软件、著作权、数据资源及电信服务频谱等,以成本计量。对无形资产类目中数据资源预计使用寿命估算为2-5年。中国联通半年报显示,公司将8476.39万元的数据资源列入开发支出。截至6月30日,中国联通集团开发支出余额中包含尚在开发中的数据资源约人民币0.85亿元,主要包含为现有数据产品和服务提供支撑的行业数据库和模型等。中国电信半年报显示,数据资源项目共“入表”1.05亿元,均在开发支出项目中。今年上半年,中国电信符合资本化条件的数据资源研究开发支出为1.05亿元。
02 全国各地设立的国有数据集团已超100家
根据企查查数据的不完全统计,截至2024年8月10日,全国各地设立的国有数据集团已经超过100家。从注册资本来看,有23家数据集团注册资本在20亿元及以上。从设立时间看,76%的数据集团成立于2019年及以后,其中2021年和2022年均成立了14家,2023年成立了23家,2024年至今已成立了13家。从区域分布来看,江苏、浙江、湖北、安徽、河南和江西的数据集团设立数量最高,均在7家以上,其中江苏和浙江达到22家和14家。从主要数据集团的定位看,一般包括以下多项:政务数据平台的运营者,数据资源的汇聚融合者,公共数据授权运营者,数据流通交易促进者,数据产业的培育者,以及数字经济的推动者等。
03 IBM发布《数据泄露成本报告》:AI应用节省最大成本
近日,IBM(国际商业机器公司)发布了2024年《数据泄露成本报告》,对全球604家机构在2023年3月至2024年2月期间的真实数据泄露事件展开了深入分析。报告显示,全球数据泄露事件的平均成本在今年达到488万美元,而随着其破坏性越来越大,组织对网络安全团队的要求也进一步提高。数据泄露导致的业务损失以及事后的客户和第三方响应成本,推动了成本的同比增加,这显示其“附加伤害”已日益加剧:不仅导致企业成本上升,还扩大了副作用的影响面;即使在少数(12%)从数据泄露完全恢复的企业中,大多数企业的恢复时间都超过100天。
04 中国首个数据要素理论研究奖励计划——“数炬计划:中国数据要素新锐学者项目(DTP)”在沪正式启动!
上海数据交易所联合大数据流通与交易技术国家工程实验室、同方知网数字出版技术股份有限公司共同启动“数炬计划——中国数据要素新锐学者项目(Data Torch Plan – China Data Factor Emerging Scholars Program,DTP)”,评选数据要素领域具有代表性的青年学者,为其理论研究提供案例、实践及奖励、课题经费等方面支持。
05 Nature发文:AI数据不够,论文来“凑”?
8月14日Nature官网发布文章称多家学术出版商正在向科技公司出售研究论文的使用权用于训练AI模型这些交易在很多情况下并未征求作者的意见引发了部分研究人员的强烈不满。Nature称英国学术出版商泰勒-弗朗西斯(Taylor & Francis)已经和微软签署了一项价值1000万美元的协议允许微软获取它的数据来改进AI系统。6月有消息称美国出版商Wiley允许某家公司使用其内容训练模型从而赚取了2300万美元Nature称这些论文涵盖了自然科学、社会科学等多个领域成为了AI模型训练的重要语料
【政策速览】
01 《数据交易场所发展指数研究报告(2024年)》发布
为助推数据交易场所高质量发展,繁荣场内数据交易市场,中国信息通信研究院围绕“以评促统、以评促建、以评促进”,撰写了《数据交易场所发展指数研究报告(2024年)》。近日,该报告对外发布。报告紧扣数据要素价值化主线,深入分析国内外数据交易场所发展现状和趋势,系统剖析我国数据交易场所发展面临的机遇和挑战,并在贵阳大数据交易所的大力支持下,遵循国家政策导向、实践导向、发展需求导向和问题导向,从构建规范高效的数据交易场所入手,围绕发展环境、基础支撑、市场交易、生态构建、辐射影响五个维度,研究建立了数据交易场所发展指数体系1.0。
02 北数所发布《个人信息授权运营管理办法(试行)》
近日,北京国际大数据交易所按照《中华人民共和国个人信息保护法》的框架,在北京市相关委办局的指导下,发布了《个人信息授权运营管理办法(试行)》,旨在规范个人信息授权运营管理,保障个人信息主体的知情权、决定权和收益权,同时促进个人信息的合规流通。
北数所自主研发运营的数据授权平台,正是本《办法》的具体实现。该平台致力于构建一个开放、共享、安全的个人信息授权和利用的生态系统。通过该平台,我们不仅能够保护个人信息的安全,还能促进数据资源的合理利用,推动数字经济的高速发展。鼓励合法持有个人信息或对个人信息有需求的企事业单位通过本《办法》接入北数所数据授权平台,共同推进个人信息保护和合规利用。
03 浦东新区公共数据授权运营管理若干规定(草案)》
为了推进公共数据开发利用,规范公共数据授权运营管理,培育数据要素市场,促进数字经济高质量发展,上海市浦东新区数据局牵头起草了《浦东新区公共数据授权运营管理若干规定(草案)》。创新点包括整体授权与领域授权相结合的运营模式、多元化收益分配机制、以及沙盒监管机制的探索。
【专家观点】
江小涓教授:数字时代的创新及其对经济学研究的影响
近日,2024中国数字经济发展和治理学术年会在清华大学成功举办。国务院原副秘书长江小涓进行了主旨演讲。
第一点,进入数字时代,由数据驱动我们的科研范式往上走,现在至少有四种:实验观测、理论推演、计算仿真和数据驱动。数据驱动已变成了一种最有时代感的科研范式。
对创新范式的一般理解,具体分类有:技术推动的、需求拉动的、供需双方互相互动的以及系统集成的。到这个时代,创新出现了一种非常重要的新范式,就是数据驱动。科研范式和创新范式两者正逐渐趋同,其最重要的原因在于,无论是科学问题还是创新问题,最终都可以还原成为统一的数据。
数据驱动创新带来的变化,特别是在解决复杂问题方面的影响。这些变化体现在四个层面上,并且在社会科学和自然科学层面都是一样的。
第一,它能解决已知的复杂问题。我将通过蛋白质结构预测的研究来说明这一点。蛋白质结构预测,我们都知道这是什么类型的问题,而且大概知道怎么样能做出来,但是原来的方式太低效了。以往要解决如此海量工作量的问题,时间会非常非常久。
第二,它可以揭示未知的复杂关系。利用海量数据和高效的计算能力,可以在不依靠理论假设的情况下,发现数据间隐藏的复杂关联。计算能力是指计算数据之间的相互关系。过去,我们都是先有一个理论假设,然后去证实它。而现在,只要有一个很好的算法,就可以把海量的、看上去不关联的数据之间的关系给找出来,其实就是找到了一个未知复杂关系,找到了新的研究问题。
第三,它可以实时校正科研的方向。它可以结合数据驱动和理论模型驱动的方法,实现过程性的非常微量的调整,然后不断地去回应现实世界提出的问题。此外,如果研究方向“走偏”了,它也可以及时纠正,不需要最后发现失败之后再重新开始,从最初的理论假设开始来做。
第四,它可以洞察颗粒化的场景,并且实现个性化的赋能。颗粒化的场景非常非常细微。数据驱动的创新既能处理海量的数据,还能精准刻画非常微粒的场景,从而显著提升对场景的洞察能力。
第二点,数据驱动对经济学研究带来的机遇和挑战。当代经济学的一项重要研究类型是实证,就是以数据为基础来推断变量之间的因果关系,但是确实受限于数据的数量和质量,因果关系的可解释性和计算能力也存在挑战。虽然有时候我们觉得数据量已经很大了,但是和描述真实经济社会过程来比,数据量仍显不足。而且传统研究有时会采用一些确认因果关系或者某种因素影响程度的处理办法,比如主成分法、双重差分、断点回归等等,这使传统经济学研究方法对问题的分析,离真实过程的差异程度比较大。所以我们讲经济活动是一个动态的复杂系统,小样本数据量和有限测度维度,难以全面描述创新的本质和经济活动的复杂性。因此,在过去的研究中,我们在处理大尺度的一般规律和微尺度场景时常常感到“数不从心”。进入数据驱动创新的时代,数据的规模和实时性有极大提升,算法和算力也显著改进,使我们有可能揭示和发现数据间隐藏的复杂的关联。
第三,进入智能时代,大企业或者大的平台很可能会变得非常有优势,这会不会带来市场的垄断和影响社会福利呢?大平台自己形成了一个反馈机制:规模越大,产业链越长,用户规模越广,获得的数据反馈能力也越强。这种机制使得大平台的优势不断扩大。另外,现在的大平台由于规模大、资金多、数据好,而数据本身又是一个推动创新发现新规律的基本要素,所以大模型有非常大的优势。大平台的优势目前不仅仅局限于一些应用化的研究,还体现在发明专利领域。以数字经济的三大领域为例:自动驾驶、渲染引擎和虚拟现实,在这中间,发明专利的前多少位,很少能见到高校了,在国外早已经是这样了,在国内这个趋势也出现了。