自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(68)
  • 资源 (5)
  • 收藏
  • 关注

原创 爬取微博评论数据

常见的两种商业爬虫: 论坛文章评论数据的采集:微博、知乎、贴吧、推特 电商网站的数据采集:京东、淘宝、。import requestsimport pprintimport timeimport openpyxlworkbook = openpyxl.Workbook()sheet = workbook.active# 1-10# 循环爬取10页留言for i in range(1,10): url = '' print(url) respo

2021-08-21 19:42:59 1245

原创 机器学习7.21

昨日内容回顾K近邻模型代码实战# 标准化处理 统一量纲 # 哑变量处理 字符>>>数值朴素贝叶斯模型# 高斯贝叶斯分类器 # 多项式贝叶斯分类器# 伯努利贝叶斯分类器SVM模型# 超平面# 分隔带# 线性可分# 线性不可分K均值聚类# 典型的无监督学习算法模型# K值选择 拐点法 交叉验证法今日内容概要K均值聚类代码实战DBSCAN聚类分析模型GBDT模型难度较难 复杂度较高

2021-07-23 12:02:08 173

原创 机器学习7.20

昨日内容回顾Logistic回归模型对线性回归模型的公式做了Logit变换 转换成了[0,1]之间的概率值有监督与无监督机器学习"""针对每个模型 最好都记住一个该模型的实际案例"""决策树与随机森林树结构 是计算机底层较为常见的一种数据结构 二叉树、红黑树、B+树...决策树 根节点与枝节点都是某个条件 只有叶子节点是最终的数据 随机森林 其实就是由多颗决策树组织而成"""针对面试不会的问题 一定要在面试之后记录下来并查找答案"""K近邻模型以未

2021-07-20 16:38:21 555

原创 机器学习7.19

本周安排前三天算法模型后面改为下午考试加复习python编程 编程题为主MySQL数据库 查询题为主 python与MySQL结合操作网络爬虫 案例实战 python、文件操作、mongodb...综合理论题 知识点的口头表达能力'''过程中也可以不断的投递简历 有面试就去面试没有则听课(同步进行)'''有面试就去面试 没有面试尽量来学校复习(在家里可能没有学习的氛围)内容回顾线性回归模型1 如何判断两个变量之间是否存在线性关系 绘制散点图

2021-07-20 16:37:54 284

原创 数据分析案例

数据分析案例数据分析案例要求电商数据分析案例电商数据分析案例一.数据集介绍此次的数据集来自kaggle的关于在线零售业务的交易数据,该公司主要销售礼品,大部分出售对象是面向批发商。二.数据集字段介绍数据包含541910行,8个字段,字段内容为:InvoiceNo: 订单编号,每笔交易有6个整数,退货订单编号开头有字母’C’。StockCode: 产品编号,由5个整数组成。Description: 产品描述。Quantity: 产品数量,有负号的表示退货InvoiceDate:

2021-07-18 22:35:37 682

原创 机器学习7.09

昨日内容回顾ssh配置管理的机器比较多 需要频繁校验用户名密码的情况下可以考虑使用ssh公钥私钥的方式1.先生成自己的公钥私钥2.将自己的公钥发送给目标机器3.通过私钥直接完成链接交互集群单点启动与集体启动Hadoop所有的启动命令基本都在sbin目录下定时任务crontab # linux自带的* * * * *分时日月周crontab -e # 添加定时任务crontab -l # 查看定时任务crontab -r # 删除定时任务时间

2021-07-10 22:39:28 140 3

原创 Hadoop7.08

昨日内容概要Hadoop环境准备1.解压hadoop压缩包(2.X版本)2.配置环境变量并重新加载3.检测是否正常启动Hadoop目录结构bin 程序文件etc 配置文件share 说明文档sbin 操作命令readme 产品说明Hadoop官网案例1.grep过滤案例 hadoop jar share/.... grep 目标文件 输出位置2.wordcount统计案例 hadoop jar share/.... word 目标文件 输出

2021-07-10 22:39:07 88

原创 Hadoop7.07

昨日内容回顾Hadoop组件详细介绍多看几遍 争取能说出个大概即可虚拟机环境准备1.克隆多台虚拟机 链接克隆 完整克隆2.依次修改克隆出来的机器ip地址和主机名 ip地址修改 vim /etc/sysconfig/network-scripts/ifcfg-eth0 systemctl restart network host主机名 hostnamectl set-hostname hadoop01 bash3.修

2021-07-10 22:38:14 228

原创 Hadoop7.06

昨日内容回顾大数据四大特征1.海量数据 数据的容量非常的大 1024GB = 1TB 1024TB = 1PB...2.高增长率 短时间内数据的增长速度特别快 天猫双十一3.多样性 数据的种类非常的多样 结构化数据 非结构化数据4.低价值密度 数据量越大从中获取到有效的数据效率越低(一定的前提条件)大数据应用场景应用在生活的方方面面人工智能 自动驾驶汽车 机器人 ...金融房地产商品营销...大数据仓库之Hadoop2006

2021-07-07 01:10:23 76

原创 Hadoop7.05

课程安排大数据之Hadoop面试可以说一说 真正的数据分析过程中可能接触的不多但是数据分析岗位与大数据岗位很相似 所以最好先掌握个大概ps:其实也就是一款数据库软件而已机器学习算法模型主要是为了了解每个算法的内部本质工作中有现成的软件和代码能够直接实现算法 不需要你自己再写公式面试指导如何攥写个人简历如何与HR沟通交流Hadoop理论大数据的四大特征1.数据量一定要大 容量 eg:1PB 1EB2.短时间内数据的增长速度特别快 eg:双十一 一

2021-07-07 01:10:15 64

原创 linux7.02

昨日内容回顾文件编辑命令vi linux系统自带的vim 需要额外的下载# 可以使用yum命令下载yum install vim -y语法结构vi 文件名 # 文件不存在自动创建vi快捷方式命令行模式编辑模式视图块模式(批量操作)切换方式及识别方法 就看文件的最底部 如果什么都没有显示则为命令行模式 如何有--XXX--显示则为其他模式 --insert--插入模式 编辑模式 --vistul block--视图块模式 批量操作

2021-07-02 19:49:09 80

原创 linux7.01

昨日内容回顾命令行快捷方式课下一定要自己多练习几遍目录结构相关linux所有的路径都是从根开始windows则是分不同的盘符管理ps:在linux中操作的时候一定要明确你当前在哪路路径下 pwd . 当前目录.. 上一次目录多级目录需要使用斜杠分割 ../..mkdir 默认只能创建单级 加上参数-p可以创建多级文件操作相关1.创建文件 touch2.查看文件内容 cat3.拷贝文件 cp4.剪切文件 mv5.删除文件/目录数据 rm

2021-07-02 19:48:43 83

原创 linux6.30

昨日内容回顾安装操作系统需要有一个该操作系统的镜像文件(.iso)前期不熟练的情况下可以参考截图一步步做 之后要做到独立完成1.虚拟网络设置2.网卡文件名称修改 ens33 >>> eth03.网络配置 ip地址 端口号 子网掩码 DNS服务器(域名解析) # 所有的网址其实内部本质都是对应着一串数字(IP:PORT)4.其他相关配置 软件 时间 ...5.设置管理员密码及普通用户6.需要重启才能生效安装远程操作软件xshell # win

2021-06-30 22:46:55 82

原创 linux6.29

昨日内容回顾服务器的作用1.数据保存在服务器上面更加的安全可靠2.24小时不间断提供服务3.提升用户体验# 运维人员的职责服务器的种类1.云服务器 很多小公司使用的都是云服务器(成本低 不需要自己建造管理和维护)2.物理主机服务器 机架服务器 刀片服务器 塔式服务器服务器的品牌戴尔IBM(联想收购thinkserver)浪潮服务器的尺寸用来描述服务器长宽的单位是U1U 2U 4U服务器内部主要组成部分1.电源 要保证服务器2

2021-06-30 22:46:44 86

原创 linux6.28

爬虫复习1.python基础 python基础语法 流程控制 函数封装2.防爬措施 整体防爬 User-Agent referer IP代理池 Cookie代理池 各自防爬 数据内部动态加载 网页设置有干扰项标签 数据加密解密3.课程中爬取过的网站 红牛分公司数据 链家二手房数据 历史天气数据 汽车之家新闻数据 京东商品数据 豆瓣电影

2021-06-29 22:53:23 99

原创 网络爬虫06.25

昨日内容回顾爬取商品数据并保存selenium模块bs4模块openpyxl模块爬取电影排行并保存requests模块bs4模块openpyxl模块# 针对电影详情数据有两种获取方式 1.直接处理简介内容 2.二次爬取更深层次的网页'''豆瓣是有检测IP访问频率的机制'''ps:我们平时在编写代码的时候可以创建一个tests.py文件用于测试相当于我们写数学题目的草稿纸爬取贴吧图片并保存requests模块lxml模块文件操作'''有检测IP访问频

2021-06-28 09:44:29 116

原创 网络爬虫06.24

昨日内容回顾京东多页及函数封装1.多页思路 研究url规律 直接查找下一页链接2.代码封装 什么是函数 函数的作用 为什么封装openpyxl模块pandas模块 内部封装了openpyxl pd.read_excel() pd.read_csv()openpyxl模块 WorkBook load_workbookxlrd与xlwt模块 百度查找相应文档 excel版本问题 .xls .xlsx1.创建excel文

2021-06-28 09:44:17 110

原创 网络爬虫06.23

昨日内容回顾selenium基本选择器find_element_by_... # 单个find_elements_by_... # 多个'''支持css选择器和xpath选择器'''selenium常用操作click()send_keys()send_keys(模拟键盘按键)text()get_attribute()'''更多其他操作可参考笔记即可 无需过多记忆'''Xpath选择器'''功能非常强大的一款选择器'''//*//div/a//div

2021-06-24 18:33:47 99

原创 网络爬虫06.22

昨日内容回顾二手房数据局部查找今日再独立完成代码编写代码函数封装爬取天气数据有时候页面上的数据是通过js代码动态加载的需要我们通过浏览器检测请求代码 network查找js代码请求的url地址"""有一类url我们在发送请求的时候不会给我们返回一个HTML页面而是一些json格式的数据这种类型的url我们习惯称之为>>>:接口"""爬取新闻数据网页的HTML中参杂了干扰项需要我们通过if判断筛选避免针对分页 针对新闻详情页如何爬取

2021-06-24 16:43:41 72

原创 贪吃蛇代码

贪吃蛇代码# -*- coding: utf-8 -*-import pygameimport randomimport copy''' 首先设置蛇的一个运行方向 接下来判断键盘事件在决定蛇的运行方向 蛇可以运行起来了 那么接下来就是 吃食物增加自己的长度 和 不吃食物在不同的位置显示'''# 初始小蛇方向move_up = Falsemove_down = Falsemove_left = Falsemove_right = True# 1.1 游戏初始化

2021-06-22 22:23:52 2504

原创 网络爬虫06.21

上周内容回顾bs4四种过滤器无需刻意记忆 保存好做到有印象之后使用直接查找即可bs4常用方法find_all name 指定标签名称 attrs 字典指定属性 class_ 直接写class... id 直接写id...find 用法与find_all一致select css选择器css选择器标签选择器 'p'类选择器 '.c1'id选择器 '#d1'后代选择器 '#d1 .c1' # 查找id是d1标签内部所有class等

2021-06-22 18:06:46 107

原创 网络爬虫06.18

昨日内容回顾requests模块发送post请求requests.post(url,data={})代码模拟登录(重要)"""编写爬虫的基本思路 先用浏览器正常操作 之后查找相应的目标数据及规律 最后使用代码爬取"""1.查找数据提交的地址2.查找请求体数据格式3.代码模拟发送数据4.获取cookie数据用于身份认证# 代码层面任何判断用户是否登录json格式数据json格式字符串数据使用的都是双引号json格式数据能够打破语言限制 实现不同编程语言之间的数

2021-06-21 21:06:28 89

原创 网络爬虫06.17

昨日内容回顾标签的两大属性idclass列表标签页面上有规则排列的横向或者纵向布局一般使用的都是无序列表无序列表 ul li有序列表标题列表表格标签类似于excel表格一样 用于展示数据table thead 表头 tr 一行 th 字段名称 tbody 表单 tr 一行 td 字段数据表单标签用于获取用户数据并提交给后端服务器input标签 type属性 text

2021-06-20 11:07:16 123

原创 网络爬虫06.16

昨日内容回顾数据获取方式# 白嫖类# 付费类# 第三方'''一定要保存好 将来很有可能需要'''爬虫简介什么是互联网 利用网线 路由器 交换机等物理链接介质将接入的计算机彼此互联起来互联网建立的目的 实现数据的远程传递什么是上网 基于互联网访问计算机内部的数据'''互联网领域没有绝对的安全'''浏览器访问网站 跳过浏览器界面展示数据给用户看(数据不一定都是用户想看的)爬虫访问网站 跳过代码模拟请求访问数据并且筛选出符合条件的关键数据HTTP协议为什么要

2021-06-20 11:07:02 86

原创 网络爬虫06.15

后期课程安排网络爬虫linux系统大数据之hadoop机器学习就业指导今日内容概要获取数据的方式网络爬虫简介网络请求协议软件开发架构 c/s架构 b/s架构HTML标记语言浏览器展示出来的花里胡哨的界面 内部都是由HTML搭建骨架今日详细内容获取数据的方式1.公司内部的2.花钱购买的3.爬虫爬取的# 白嫖类百度指数:https://index.baidu.com/v2/index.html#/新浪指数:https://data.

2021-06-15 17:57:11 261 1

原创 数据分析-Tableua6.10

今日课程内容内容回顾Tableua-表计算表计算的依据表计算的函数Windows计算running计算排序显示图历史新高图复杂图形-跑道图(公式固定)今日内容详细内容回顾1.Tableua的LOD函数 exclude() 排除某个维度,计算数据 include() fixed()2.环比、同比3.格式的自定义Tableua-表计算1.表计算的依据 numpy1 = [ [1,2,3],[1,1,1] ] pr

2021-06-15 17:56:34 114

原创 数据分析-Tableua6.09

今日课程内容内容回顾作业讲解Tableua-LOD函数计算客户首次购买日期新客户增长趋势盈亏分析地区销售额占比率客户回访天数Tableua-表计算今日内容详细内容回顾1、Tableua仪表板 a、Tableua的基本布局 b、Tableua的基本操作 动态参考线 url转向 图表转向 突出显示 ...2、Tableua-LOD函数 include exclude fie

2021-06-15 17:56:23 110

原创 数据分析-Tableua6.08

今日课程内容内容回顾Tableua仪表板的使用仪表板的布局垂直水平…仪表板的操作图表的跳转url地址跳转动态参考线(浮动)突出显示Tableua的仪表板1.仪表板的设备 平板 电话 桌面 默认2.工作表3.对象 仪表板的布局 水平、垂直...4.仪表板的标题##########################################平铺、浮动1.通过浮动的形式将所需的对象拖至仪表板里面2.通过整体

2021-06-08 23:31:02 101

原创 数据分析-Tableua6.07

今日课程内容内容回顾作业讲解Tableua的参数动态参考线图表数据切换日期切换图表切换电商的数据分析案例筛选月份较佳数据客单价客户行为分析-RFM今日内容详细内容回顾1.Tableua的基本操作 a.链接数据源 b.文件栏的使用(左边) c.中间: 标识 (颜色、大小、标签、详细信息、工具提示) 筛选框的使用 d.基本图形展示 条形图 e.地图分析 地理角色 地图层

2021-06-08 23:30:47 101

原创 数据分析-Tableua6.04

今日课程内容内容回顾作业讲解Tableua的计算case…when字符串日期Tableua的参数动态参考线图表数据参数日期参数图表参数电商案例讲解数据加载数据观察数据处理今日内容详细内容回顾1.构建图形 盒须图 树状图 气泡图 文字云 ...2.Tableua的计算 聚合函数 sum、avg、max、min、count、countd、zn、abs if...else 四象限颜色设置的图

2021-06-04 21:48:46 176

原创 数据分析-Tableua6.03

今日课程内容内容回顾构建图形气泡图文字云树状图靶心图盒须图计算聚合计算:max、min、avg、sum、count、countd、zn…if-else计算案例:设置四象限颜色内容回顾1.日期操作 单值 多值 ---- 连续、离散2.构建图形 表格 条形图 折线图 散点图 饼图 空心饼图 直方图 热图 突出显示表作业讲解import numpy as npimp

2021-06-04 21:48:34 59

原创 数据分析-Tableua6.02

今日课程内容时间的操作构建图形表格条形图折线图饼图空心饼图散点图直方图热图突出显示表内容回顾Tableua的下载与安装Tableua的连接数据源txtexceljson数据库…Tableua的界面文件的划分:维度、度量标识颜色、大小、标签、详细信息、工具提示基本操作生成条形图地图分析地理角色地图层混合地图中国领土不可分割今日内容详细日期的操作1.日期的划分202

2021-06-02 21:46:36 137

原创 数据分析-Tableua6.01

今日课程内容Tableua的下载与安装Tableua的大纲Tableua的基本操作连接数据源分层、分组…下载与安装下载地址:https://www.tableau.com/zh-cn/products/desktopTableua的大纲1.基本操作2.图形构造3.计算4.参数5.LOD函数6.表计算7.仪表板的操作8.复杂图形-跑道图Tableua基本操作1.连接数据2.Tableua的基本界面3.颜色、大小、标签、详细信息、工具提示的使用4.分组分

2021-06-02 21:46:13 313

原创 数据分析-mongodb语句5.28

昨日内容回顾mongodb安装细心的一步步点击即可# 搜索网上安装教程即可文件准备data文件夹 db文件夹log文件 mongod.log日志文件mongod.cfg配置文件基本NoSQL语句mongoshow dbsexit /quit()用户管理针对不同的用户可以创建不同的账号以及不同的权限用户的账号信息可以保存在任意的库下没有规定固定db.createUser({})db.auth({})库、集合、文档增删改查show dbsu

2021-05-31 22:40:56 118

原创 数据分析-mongodb语句5.27

昨日内容回顾正则表达式通过一些特殊符号的组合去字符串中筛选/匹配/校验出符合条件的数据# 正则表达式符号在没有量词修饰的情况下都是单个单个字符匹配1.字符组的概念 [0-9a-zA-Z]2.特殊符号 . 匹配除换行符以外的任意字符 \d 匹配数字 ^ 匹配字符串的开头 $ 匹配字符串的末尾 () 给正则表达式分组 | 或的关系 [^] 取反3.量词 '''量词不能单独使用 必须跟在正则符号的后面''' * 零次或多次

2021-05-27 19:09:06 83

原创 数据分析-python模块5.26

昨日内容回顾组合图绘制代码最好多敲几遍,然后保存至自己容易找到的地方后续如果需要直接拷贝修改关键参数直接使用即可其他可视化相关模块及工具matplotlibseabornechartshighchartspyecharts # 界面交互性更强数据清洗理论概述数据清洗 其实就是在对数据进行数据分析之前的审核 校验 比对 处理等措施 数据分析的工作流程数据清洗类似于生活中的做菜流程数据分析常用方法及流程 1.读取数据 read_csv

2021-05-26 21:22:39 78

原创 数据分析-python模块5.25

昨日内容回顾数据可视化模块matplotlib 基于matplotlib的seaborn模块 import matplotlib.pyplot as plt绘制图形有两种策略 1.直接使用Plt模块 plt.图形样式方法 2.使用DataFrame内置方法 df.plot(kind='图形样式')饼图通过面积大小反应权重占比Plt.pie()条形图主体高低反应数值差异垂直条形图 plt.bar水平条形图 plt.barh交叉

2021-05-26 02:45:25 619

原创 数据分析-python模块5.21

昨日内容回顾DataFrame数据概览index 获取行标签columns 获取列字段shape 获取行列数dtype 获取每一列存储的数据的数据类型T 转置(行列互换顺序)head() 获取表格数据的前几行内容tail() 获取表格数据的后几行内容describe() 快速统计info() 查看数据类型及是否含有缺失数据读取外部数据# 常见参数 sep header names skiprows skipfooters use

2021-05-22 23:36:27 114

原创 数据分析-python模块5.20

昨日内容回顾numpy中的运算符数学运算符 +、-、*、/、%、//、**比较运算符 greater less equal# numpy中的数字在运算的时候按照位置一一对应numpy中的内置函数必会统计函数 max min sum ...# axis参数针对多维数组可以控制行列 axis = 1 行 axis = 0 列numpy中的随机数模与python中的random模块类似np.random.方法# 无需过多记忆 使用时查看内部源码赌场小

2021-05-21 12:35:44 61

原创 SQL语句练习

单表查询前期表准备create table emp( id int not null unique auto_increment, name varchar(20) not null, sex enum('male','female') not null default 'male', #大部分是男的 age int(3) unsigned not null default 28, hire_date date not null, post varchar(50), post

2021-05-19 21:54:05 147

数据分析4.16.md

python

2021-04-16

数据分析4.15.md

python

2021-04-15

数据分析4.14.md

关于数据分析的基础知识

2021-04-15

数据分析4.13.md

python

2021-04-15

数据分析4.12.md

关于python的一些基础知识

2021-04-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除