爬虫与存储
文章平均质量分 90
网络爬虫和数据库的基本操作
DataMiningSharer
毕业于华中科技大学,专注于数据挖掘基础、流程和案例分享。
展开
-
数据分析初学入门——22本SQL学习书籍推荐
很多数据分析初学者都被推荐学SQL,SQL是最基础且是必备的技能之一,但是不知道该从何学起,很多课程讲了很多知识点,但是初学的朋友没有对这一领域整体框架的认识,不知道该学哪些知识、有哪些知识、实际工作需要到什么程度,常常会担心自己该用的没学、学了的没理解或不会用等等。这里通过介绍21本学习SQL的经典书籍(可以说几乎所有人们经典书籍都囊括在内,对初学者、从业者都认可和检验的)。原创 2022-01-12 09:58:11 · 7754 阅读 · 0 评论 -
数据分析模型,你会用多少种?建议你用这28种商业模型和方法武装自己
下面将要介绍的是经过实践检验的、适用于数据分析师的模型。本文不会详细解释每个模型的细节,只是企图先搭建一个框架,知道有哪些模型、什么场景下使用、说得清主要环节,后续会一一结合可视化工具PowerBI或Python具体实践。换句话说,你知道的足够多才有优势,具体的用什么学什么就可以了。接下来从利用数据程度的角度,来介绍28种模型。原创 2021-12-04 08:48:45 · 2032 阅读 · 1 评论 -
关联规则算法怎么实现?Python代码、PowerBI可视化详细解释给你听(下-实战篇)
apriori 是一种流行的算法,用于在关联规则学习中应用提取频繁项集。apriori 算法旨在对包含交易的数据库进行操作,例如商店客户的购买。如果满足用户指定的支持阈值,则项集被认为是“频繁的”。例如,如果支持阈值设置为 0.5 (50%),则频繁项集被定义为在数据库中至少 50% 的所有事务中一起出现的一组项目。原创 2021-12-02 23:24:56 · 3004 阅读 · 4 评论 -
销售指标在下降该怎么分析?手把手教你多种方法和思路分析电商案例
在电商领域,最常遇到老板丢过来一个问题:“最近这个销售额在下降啊你来给我分析分析,想出几个有用的解决办法来”。又或者在数据分析师面试的时候面试官喜欢问:“现在有个产品的销售额下降了,你能给我拆解一下原因吗?” 这当然是数据分析师必备的知识储备啦,有同学就会回答:销售额=单价*销量。从价格方面找,是不是降价啦?是不是促销折原创 2021-11-30 18:51:11 · 4099 阅读 · 0 评论 -
数据分析方法论or数据挖掘方法论,搞数据你会多少种?
数据分析小白往往在学了一大通数据分析工具,比如Excel/SQL/Python /java/SPSS什么的之后总感觉分析数据没思路,一是没有数据可供你分析,网上找的一堆数据都不是你“理想”的数据形态,因为学习用的数据好像都是恰好是解决学习的那个部分知识,别的问题都没有,很“干净";二是你自己爬数据或者找公司内部的数据,原创 2021-11-29 00:48:20 · 1196 阅读 · 0 评论 -
MySQL的书写顺序与执行逻辑?SQL条件过滤之否定筛选的五种解法教你搞懂它
数据分析写SQL取数回归到本质就是筛选或者过滤,对原始数据进行某种给定条件的筛选或者过滤,仔细思考一下表连接(join)不就是以另一张表为过滤条件、where后接的不就是过滤条件、group by分组不就是把分组情况作为条件?说到底就是按照条件的先后顺序一道一道把需要的数据筛选出来,因此条件过滤是SQL的基本技能,理解透了如何用join、如何用where、如何用gr原创 2021-11-24 09:35:46 · 617 阅读 · 1 评论 -
如何找到不是顾客购买因素的因素?SQL递归问题之生成递归的三种解法
SQL递归是数据无中生有或是父子关系这一类问题的特定解法。我们经常会遇到要找出不在某张表里的数据,但是这张表里的数据是缺失或者只有部分信息,那么就需要自己造数据;也会遇到部门上下级的编号在同一列需要找出谁是老板,谁是经理,谁是员工这样的问题。 初学者如果没有学过解决这类问题的办法,可能会束手无策。尝试连接查询、联合查询、窗口函数、原创 2021-11-23 16:09:21 · 682 阅读 · 0 评论 -
如何重新格式化透视表格?SQL行列转换问题之行转列的四种解法
把数据从行转列,从列转成行是常常遇到的经典问题,这种问题需要用特定的方法去解决,只要搞懂了就能解决这一类问题。总的来说,从行转列大多是要使用if语句或casewhen语句,从列转成行要使用的是union或union all语句。在实际工作中,我们常常要根据需求进行这样重新格式化表格数据,也叫透视或逆透视。如果你会使用PowerBI就会知道里面有个透视或逆透视的功能选项卡。 &nb原创 2021-11-22 18:14:09 · 897 阅读 · 0 评论 -
销售额超过公司均值的优秀经销商?SQL比例问题之分组比较的四种解法
分组比较是看起来比较简单,但是写起来比较麻烦的问题,一般就是先进行两个不同分组计数、求和、求均值,然后两个均值作比较,这样就涉及表连接和判断,写的代码量就比其他问题多很多。它与连续问题、排名问题和累加问题不同的是,后面三个问题是数据行之间纵向产生关系,而这里是横向产生关系。 这类问题也是有一定套路的,下面用实际案例数据还原创 2021-11-21 11:22:51 · 592 阅读 · 0 评论 -
写了那么多SQL,它是怎么运转的呢?--Mysql的逻辑架构及基础
数分第一步,会写MySQL。我们看到很多数据分析的基础教程他们都讲了什么是SQL,然后也会详细的告诉你怎么写增删改查语句,每个关键词都详细地剖析怎么使用,但是你学习了很多SQL基础知识以及做了很多SQL练习题之后还可能是对SQL一知半解,甚至当你面试的时候做一道你没遇到过的SQL题或者给你一道SQL让你分析它的运行效率时,你就傻眼了。你知道这是为什么吗?因为我们对MySQL的机制不了解,也没有系统化地对自己学习到的SQL知识进行系统化整理,一遇到实际问题就傻眼了。那么我们这个教程就是来告诉大家MySQL的底原创 2021-11-20 23:07:57 · 564 阅读 · 0 评论 -
累计销售突破百万是哪一天?SQLSQL累计问题之金额累加的五种解法
累计/累加问题是数据分析师经常遇到需要处理的情况,比如根据二八法则,百分之二十的产品销售数占到总额的百分之八十,就需要先求数额累计。这个问题在Excel中实现很简单,但是如果要用SQL取数就没有那么容易。下面用实际案例数据还原真实取数场景,帮助你在实战中理解如何实现累计取数的过程,总结思路。需求:如果你是某网店的数据分析师,现在老板要求吸引老顾客,对老顾客开展一项回馈活动,要找出自开店以来使店铺销售额达到一百万那一天的所有顾客。注意:不能超过一百万,也就是找到的顾客订单金额与之前所有订单金额之和小于等.原创 2021-11-19 23:32:51 · 1975 阅读 · 0 评论 -
连续60天畅销产品怎么找?SQL相邻问题之连续登录的四种解法
SQL中关于连续登录问题也是经常遇到的难点,Leetcode上有很多花样百出的考察连续问题的题目。简单点的,对初学者来说很容易解答,但是真在实际工作中遇到恐怕会遇到各种各样的问题。 有时候看到一些职场人士吐槽现在SQL考察越来越难了,几年前的“难题”现在成了入门级的。而我们现在初学者练习的基本SQL题远不能让你真正掌握SQL取数要原创 2021-11-18 19:05:33 · 528 阅读 · 0 评论 -
茴字有几种写法?SQL排名问题之全局排名的四种解法
“茴”字有几种写法?SQL排名问题之全局排名的四种解法 排名问题恐怕无论是公司面试还是日常工作都会经常遇到的问题。有很多初学者虽然学会了基本的SQL查询,也练习了一些SQL题目,但是始终不得SQL的要领。究竟怎么才能深刻掌握如何SQL取数呢?当然是会举一反三啦!举一隅不以三隅反,你就是没学会~ 下面通过一个小小的例子来帮助你思考的排名问题,希望对你有所帮助。而且我们使用的是公司实际数据而不是简单的几行数据,在接下来的例子中你会感受到几行数据的查询和几万行乃至上百原创 2021-11-17 19:44:31 · 153 阅读 · 0 评论 -
1001系列之pandas0001如何从Mysql数据库中导入导出数据
一、Pymysql模块简介 Mysql数据库是数据挖掘任务的数据源之一,通过pymysql模块可以直接连接MySQL数据库,进行增删改查等操作。Python连接MySQL的流程如下:1.1cursor(游标)的作用 为什么要建立一个cursor(游标)? 因为当python与数据库连接时并不是一次性读取了所有数据,而是根据SQL语言进行操作。cursor在这里相当于执行SQL查询的货车,在Mysql数据库和Python程序之间传递信息。二、实际操作连接数据库2.1 导原创 2021-05-18 10:20:40 · 691 阅读 · 0 评论