大数据
文章平均质量分 54
北落师门XY
这个作者很懒,什么都没留下…
展开
-
基于sqlalchemy的MYSQL数据库操作
增1增N删改查1filterfilterby查N查0原创 2020-03-17 22:31:27 · 333 阅读 · 0 评论 -
基于pymysql的MYSQL数据库操作
一、机制对将dui二、安装库三、基本操作增1增N删改查1查N四、原创 2020-03-16 21:29:42 · 676 阅读 · 0 评论 -
MYSQL(一)
零、安装与配置参考网址:https://blog.csdn.net/NepalTrip/article/details/79492058补充:下载时选择大的安装包,不选择小的web版DBMS:数据库管理系统SQL:结构化查询语言,不区分大小写,搜索时根据DBMS的设置是否区分大小写,要以【;】结尾一、基本操作mysql -u root -p 进入sqlshow da...原创 2018-12-12 22:56:54 · 319 阅读 · 1 评论 -
大数据生态圈及重要组件
Spark:计算引擎,框架媒介,调用配置所处位置下的机器的硬件设施来实现调用配置。使用内存来存储数据,运算快,断电丢失。对应于Hadoop圈中的MapReduceHbase:分布式、面向列的数据库,存储和读取媒介,来源于BigTable(一个结构化数据的分布式存储系统),但HBase是一个非结构化数据存储的数据库。是Hadoop项目的子项目非结构化、面向列、稀疏Hadoop:分布式系统基础框架,管...原创 2018-07-09 11:23:33 · 3243 阅读 · 0 评论 -
爬虫(一)基础
浏览器到网站服务器响应爬虫就是用代码替代里浏览器,并对返回的信息进行解析伪装UAUA(User-Agent)在信息头中用于对请求的身份进行识别,某些网站为防止崩溃,会对机器人进行限制。比如发现是个python请求就直接拒绝了。step1)获取浏览器UA任意网页右键》》审查元素》》Network》》刷新/保存等任意操作》》Name中选中后任意请求》》Headers 'Requ...原创 2019-01-01 17:33:01 · 545 阅读 · 0 评论 -
爬虫(三)多线程、多进程
一、git代码来源https://github.com/shenxiangzhuang/PythonDataAnalysis/tree/master/Ch1Spider/muti-threads经过咨询作者,将最后两行代码交换一下,否则后一种方法无法获取到url二、知识点三、代码import reimport timeimport requestsimport ...原创 2021-08-11 23:58:34 · 131 阅读 · 0 评论 -
爬虫(二)——使用多线程的方式爬取新版CSDN博客的总访问量
一.背景描述 在访问量上1万+后就看不到具体的访问数了,为了获得总访问数可以将各篇博客的访问数加起来,为了实现这个步骤的自动化,使用了爬虫的方法,怎么爬csdn的博客访问量可以参考以下博客,在此不赘述。 https://blog.csdn.net/u011031257/article/details/80931165 在爬取的时候发现了两个问题:1)如果只是单纯的...原创 2019-01-07 14:45:56 · 254 阅读 · 0 评论