关于大数据处理的一些心得

最新推荐文章于 2024-03-31 16:53:46 发布

weixin_33994444

最新推荐文章于 2024-03-31 16:53:46 发布

阅读量234

点赞数

文章标签： python 数据库

原文链接：https://my.oschina.net/u/3837147/blog/1840542

版权

2019独角兽企业重金招聘Python工程师标准>>>

在以往工作中，参加过一些大数据项目，每日上千万的记录。

1.在关系型数据库上，索引的合理建立非常重要，一般是选择组合索引；

2.在表的存储，会选择hashcode进行分表,因为如果按主键进行分表，会有点问题，例如oracle的序列号，如果事务回滚后，序列号已经被使用，这样有可能数据都分配到某几个分表中，导致数据分配不均衡，而考虑到分库是相当麻烦复杂，所以不选择这种形式;

3.对某些表，会进行归档，然后会放入文档型数据库中，如mongodb;

4.查询时必须加条件，进行数据量缩小，而且是要分页的形式;

5.在进行大批量插入数据时，不适合一条SQL操作，需要分批进行插入，不然IO操作会非常大;

6.对一些大表，进行修改表字段时，选择临时表，特别是一些在不断有数据入库的情况下;

7.在数据库映射类时，主键要用类，因为int有字段范围，存在一定风险

虽然这些网上都有，但这些是项目上，遇到的坑，有深刻的体会.

转载于:https://my.oschina.net/u/3837147/blog/1840542

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_33994444

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于大数据处理的一些心得

2019独角兽企业重金招聘Python工程师标准>>> ...
复制链接

扫一扫

数据分析心得

产品经理萝卜

09-13

2181

读《红楼梦》所感最近在读《红楼梦脂评汇校本》，在第二回“贾夫人仙逝扬州城冷子兴演说荣国府”前有一段脂评描述红楼梦的写作手法，很有感触，摘录如下：本旨只在冷子兴一人，即俗谓“冷中出热，无中生有”也。其演说荣府一篇者，盖因族大人我，若从作者笔下一一叙出，尽一二回不能得明，则成何文字？故借用冷子一人，略出其大半，使阅者心中，已有一荣府隐隐在心，然后用黛玉、宝钗等两三次皴染，则耀然于心中眼...

关于大数据的处理的一些经验

KeyRainie的专栏

05-09

1899

1.数据库的技术上，目前我们公司在研究hadoop分层数据库，具体了解不多；外面流行的NoSql非关系型数据库，像亚马逊、谷歌还有一些日本企业都有自己的NoSql数据库； 2.传统关系型数据库的优化，数据库层的优化和上层使用的优化。 数据库层：需要DBA进行优化，减少碎片，进行分区等；使用层的优化，即优化SQL 从外界因素来看影响SQL有：CPU、RAM、Network、Disk CP

参与评论您还未登录，请先登录后发表或查看评论

一名 Google 工程师的大数据处理经验

Python之禅的专栏

04-25

438

毫无疑问，Google是公认的大数据鼻祖。如今很多人提起大数据，还停留在 Google 开启的“三驾马车”时代：Google FS、MapReduce、BigTable。...

大数据处理经验(持续更新)

herosunly的博客

03-29

6179

先取少量数据跑代码，确保代码没有语法和逻辑错误，再放到大量数据上面跑。

大数据处理的开发经验

cpongo5

04-10

189

大数据已经不是什么新话题了，在实际的开发和架构过程中，如何为大数据处理做优化和调整，是一个重要的话题，最近，咨询师Fabiane Nardon和Fernando Babadopulos在“Java Magzine”电子期刊中发文分享了自己的经验。\作者在文中首先强调了大数据革命的重要性：\\大数据革命正在进行，是时候去参与其中了。企业每天产生的数据量不断增加，可以被重新利用来发现新信息的公共数据...

对于大数据的一些处理方法

Yinghuhu333333的博客

08-02

4515

问题：数据太大，在内存中无法一次性装入。题1：给定一个大小超过100亿的文件，该文件是用来存储IP地址，找到出现次数最多的IP地址。分析：100亿就是大约就是10G，对于现在的计算机而言，内存中无法容纳这么大的文件。解决：将一个大文件切分为多个小文件，例如：我们可以将该100亿的大文件切分为1000个文件，即每个文件的大小大约就是10M，那么就可以在内存中容纳得下了。那么，我们要怎...

大数据处理

weixin_44529549的博客

11-19

2214

大数据处理的基本流程 大数据处理流程主要包括数据收集、数据预处理、数据存储、数据处理与分析、数据展示/数据可视化、数据应用等环节，其中数据质量贯穿于整个大数据流程，每一个数据处理环节都会对大数据质量产生影响作用。通常，一个好的大数据产品要有大量的数据规模、快速的数据处理、精确的数据分析与预测、优秀的可视化图表以及简练易懂的结果解释。一、数据收集搭建数据仓库，数据

关于物探数据处理与解译的几点认识——“老矿山物探技术研讨班”学习心得.pdf

08-15

《关于物探数据处理与解译的几点认识》是一篇探讨地球物理勘探（物探）技术的文章，作者通过参与“老矿山物探技术研讨班”并聆听多位专家的讲座，总结了物探数据处理和解译的关键问题。物探数据处理是矿产勘查中的...

大数据分析培训心得体会范文.docx

08-04

在培训中，我们接触到了如Hadoop、Spark等大数据处理框架，它们能高效地处理海量数据，实现数据的快速清洗、转换和分析。同时，掌握了SQL等数据库语言，对于提取和整理数据至关重要。此外，Python和R语言在数据分析...

大数据期末课设~基于spark的气象数据处理与分析

12-14

总结，这个项目不仅涵盖了Spark的大数据处理技术，包括数据获取、数据清洗、数据分析和数据可视化，同时也体现了大数据在气象领域的应用价值。通过这样的实践，学生能够掌握大数据处理流程，并了解如何利用大数据...

Java大数据处理经验之谈

爱吃早餐的程序员

03-26

439

写一篇大数据的处理办法吧。 java 大数据是面试必问的问题之一（待更新）

快速处理大数据经验总结

SSibyl的博客

07-14

1569

快速处理大数据的方法。

深度学习关于数据处理部分心得

weixin_41630455的博客

05-30

572

我们知道，我们一般深度学习的过程。可以简单的分为训练过程、验证过程、使用过程。其中训练过程和验证过程需要送入data、label数据。而使用过程则是输入data数据直接得到模型计算出来的label信息。在训练过程中我们将data数据输入模型得到模型计算出来的结果然后和我们输入的label信息进行对比误差，然后根据误差反向传播来更新模型中的可学习参数，最后让模型预测值和给到的label值的误差尽可能的小。所以如何将data数据和label数据传入模型这件事情就变得十分重要了。课程中老师讲到这一块我觉得

关于数据处理的总结

cncxz5801的博客

07-24

496

目录项目数据处理总结一：数据预处理二：数据后处理项目数据处理总结摘要：最近刚刚入门的深度学习，跟着学长们做了个项目，我主要负责数据标注、数据预处理和数据后处理。在这里总结一下，方便日后查阅一：数据预处理 def rename(): r = os.getcwd() root = os.path.join(r, "images") ...

数据处理工作之总结

Growing_way的博客

08-24

1178

描述最近分配了一项任务，处理一批量级为3800w的数据目的：看an调用线上推荐服务，推荐list中，an对应的答案coman排序位置（大样本）操作：在表1中拿到ori_an 与 coman的对应关系，但开始对应关系是ori_an 与 compn 将compn转换成coman，调用一个外部厂商服务 ori_an字符串处理成an，调用线上检索推荐服务，得到推荐列表根据an与coman...

十个海量数据处理方法总结