自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 资源 (5)
  • 收藏
  • 关注

原创 python爬虫练习-哈尔滨天气信息爬取

写在前面:代码注释写的比较清楚,亲测可直接使用,中间步骤需要截图啥的有点麻烦,没有找到好的截图工具(好吧是我懒了),有空的时候再说吧,如果有问题欢迎评论区提出。一、目的:爬取哈尔滨天气信息二、步骤及实现# _*_ coding :utf-8 _*_#@Time :2021/10/25 16:03#@Author :帅哥#@File :爬虫练习_哈尔滨天气信息爬取#@Project :#导入需要的库函数import requestsfrom bs4 import Beauti

2021-10-25 16:20:49 361

原创 Apriori算法介绍及python代码实现

关联规则挖掘(Apriori算法实现)关联规则挖掘:是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。基于强规则的概念,Rakesh Agrawal等人[引入了关联规则以发现由超市的pos系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则:在消费者去超市购物时,假设消费者在本次的消费过程中买了牛奶,那他本次消费中买面包的概率也很大,此类信息可以作为做出促销定价或产品销售等营销活动决定的根据。Apriori算法是常用的用于

2021-01-02 15:36:14 1386

原创 explode与lateral view使用详解(spark及hive环境对比)

explode函数能够将array及map类型的数据炸开,实现一行变多行。

2023-12-26 09:51:51 1890

原创 大数据定制篇-Shell编程

1.shell概念shell是一个命令解释器,它为用户提供了一个面向linux内核发送请求以便运行程序的界面系统级程序,用户可以用shell来启动、挂起、停止、甚至是编写一些程序2.shell变成入门-shell脚本的执行方式1)脚本以#!/bin/bash开头2)脚本需要有可执行权限3.编写一个shell脚本3.shell的变量①shell变量的介绍1)linux shell 中的变量分为系统变量和用户自定义变量2)系统变量:$HOME $PWD $SHELL.

2022-10-06 10:01:12 439

原创 牛客SQL刷题-2021-12-03 day4

1.SQL70 牛客每个人最近的登录日期(五)牛客每天有很多人登录,请你统计一下牛客每个日期新用户的次日留存率。有一个登录(login)记录表,简况如下:解题思路

2021-12-05 14:37:07 742 1

原创 牛客SQL刷题-2021-11-21 day2

1.SQL34 批量插入数据insert into actor VALUES(1,'PENELOPE','GUINESS','2006-02-15 12:34:33'),(2,'NICK','WAHLBERG','2006-02-15 12:34:33')解题思路:向表中批量插入数据:INSERT INTO table_name VALUES()mysql中常用的三种插入数据的语句: insert into表示插入数据,数据库会检查主键,如果出现重复会报错; replace i.

2021-11-21 16:49:02 774

原创 牛客SQL刷题-2021-11-20 day1

1.SQL2 查找入职员工时间排名倒数第三的员工所有信息select * from employeesORDER by hire_date descLIMIT 2,1注意:limit n,m :含义是大于n的第一个整数,一共m个2.SQL5 请你查找所有已经分配部门的员工的last_name和first_name以及dept_no,也包括暂时没有分配具体部门的员工select e.last_name ,e.first_name ,IFNULL(.

2021-11-20 23:40:27 714

原创 尚硅谷-java基础-面向对象编程(下)

一、static关键字的使用1.static:静态的 2.static可以用来修饰:属性、方法、代码块、内部类 3.使用static修饰属性:静态变量(或类变量) 属性,按是否使用static修饰,又分为:静态属性 vs 非静态属性(实例变量) 实例变量:我们创建了类的多个对象,每个对象都独立的拥有一套类中的非静态属性。当修改其中一个对象中的 非静态属性时,不会导致其他对象中同样的属性值的修改。 静态变量:我们创建了类的多个对象,多个对象共享同一个静态变量。当通过某一个对象修改静.

2021-11-11 13:58:52 298

原创 尚硅谷-java基础-面向对象编程(中)

一、面向对象的特征二-继承性1.继承性的好处:减少了代码的冗余,提高了代码的复用性 便于功能的扩展 为之后多态性的使用,提供了前提2.继承性的格式:class A extends B{} A:子类、派生类、subclass B:父类、超类、基类、superclass3.体现:一旦子类A继承父类B以后,子类A中就获取了父类B中声明的所有的属性和方法。 特别的,父类中声明为private的属性或方法,子类继承父类以后,仍然认为获取了父类中私有的结构。 只有因为封装性的影响,使得..

2021-11-11 09:56:06 129

原创 尚硅谷-java基础-面向对象编程(上)

一、学习面向对象内容的主线1.java类及类的成员:属性、方法、构造器;代码块、内部类2.面向对象的三大特征:封装性、继承性、多态性3.其他关键字:this、super、static、final、abstract、interface、package、import等二、面向对象与面向过程1.面向对象(oop)与面向过程(pop)的区别与联系二者都是一种思想,面向对象是相对于面向过程而言的。面向过程,强调的是功能行为,以函数为最小单位,考虑怎么做。面向对象,将功能封装进对 象,强调具备了

2021-11-10 09:50:00 182

原创 尚硅谷2021版Python爬虫笔记整理

笔记是用心整理的,发出来希望和大家一起学习!有错误欢迎指正!!!尚硅谷python爬虫(一)-Urllib 尚硅谷python爬虫(一)-urllib_D_lullaby的博客-CSDN博客 尚硅谷python爬虫(二)-解析方法 尚硅谷python爬虫(二)-解析方法_D_lullaby的博客-CSDN博客 尚硅谷python爬虫(三)-selenium 尚硅谷python爬虫(三)-selenium_D_lullaby的博客-CSDN博客 尚硅谷python爬虫(四

2021-10-28 10:56:51 2471

原创 尚硅谷python爬虫(五)-scrapy

一、scrapy简介scray是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理 或存储历史数据等一系列的程序中二、scrapy项目的创建及运行1.创建scrapy项目终端输入 scrapy startproject 项目名称2.项目组成spiders__init__.py自定义的爬虫文件.py ‐‐‐》由我们自己创建,是实现爬虫核心功能的文件__init__.pyitems.py ‐‐‐》定义数据结构的地方,是一个继承自scrap

2021-10-28 10:46:21 1200

原创 python爬虫练习-爬取暖心小故事并实现定时邮箱发送

一、练习目的爬取在按网站故事并实现定时邮箱发送二、实现步骤爬取在线网站的小故事 编写邮箱发送程序 添加定时任务三、实现过程1.爬取在线网站的小故事并编写邮箱发送程序# _*_ coding :utf-8 _*_#@Time :2021/10/26 21:05#@Author :帅哥#@File :爬虫练习_爬取故事并实现邮箱定时发送#@Project :import requestsfrom bs4 import BeautifulSoupimport smtplib

2021-10-28 09:00:00 391

原创 xpath下载链接

链接:https://pan.baidu.com/s/1VABuWScCpQSGrwEZe5COOw提取码:gege

2021-10-28 08:30:00 431

原创 python爬虫练习-爬取百度热搜

写在前面:比较简单,就写的也很简单,爬取的内容是标题及热搜指数import requestsfrom bs4 import BeautifulSoupurl = 'http://top.baidu.com/buzz?b=1&fr=topindex'headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0

2021-10-27 09:30:00 1739 2

原创 bs4解析select方法

bs4中select方法的学习_最低调的奢华的博客-CSDN博客_bs4 selectbs4中select的用法 - 搜索结果 - 知乎

2021-10-25 18:44:44 620

原创 尚硅谷-java基础-java基本语法

一、关键字与保留字1.关键字定义:被Java语言赋予了特殊含义,用做专门用途的字符串(单词) 特点:关键字中所有字母都为小写 2.保留字Java保留字:现有Java版本尚未使用,但以后版本可能会作为关键字使 用。自己命名标识符时要避免使用这些保留字 goto 、const二、标识符1.标识符概念Java 对各种变量、方法和类等要素命名时使用的字符序列称为标识符 技巧:凡是自己可以起名字的地方都叫标识符。2.定义规则由26个英文字母大小写,0-9 ,_或 $ 组成 数字

2021-10-24 16:41:18 1629

原创 python爬虫练习-爬取小说

详细过程及步骤(待补充全站下载)# _*_ coding :utf-8 _*_#@Time :2021/10/23 19:33#@File :爬虫练习_爬取小说剑来#@Project :import requestsimport parselimport timeurl = 'https://www.shuquge.com/txt/8659/2324752.html'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0.

2021-10-24 11:04:43 2048

原创 尚硅谷-java基础-java概述

一、计算机编程语言对比C、Pascal、Fortran面向过程的语言 C++面向过程/面向对象 Java跨平台的纯面向对象的语言 .NET跨语言的平台 Python、Scala…注:面向对象与面向过程的区别面向过程就是分析出解决问题所需要的步骤,然后用函数把这些步骤一步一步实现,使用的时候一个一个依次调用就可以了; 面向对象是把构成问题事务分解成各个对象,建立对象的目的不是为了完成一个步骤,而是为了描叙某个事物在整个解决问题的步骤中的行为。二、java语言特点特点一:面向对象 两

2021-10-23 15:38:20 164

原创 常用dos命令及快捷键

1.常用dos命令dir(directory) 列出当前目录下的文件及文件夹 md(make directory) 创建目录 rd(remove directory) 删除目录 cd(change directory) 进入指定目录 cd.. 退回上一级目录 cd \ 退回根目录 del 删除文件 exit 退出dos命令 2.常用快捷键↑ ↓:调阅历史操作命令 ← →:移动光标 Delete和Backspace:删

2021-10-23 12:45:04 136

原创 尚硅谷python爬虫(四)-requests

一、基本使用1.文档官方文档 http://cn.python‐requests.org/zh_CN/latest/ 快速上手 http://cn.python‐requests.org/zh_CN/latest/user/quickstart.html 2.安装pip install requests3.response的一个类型和六个属性一个类型: Response类型 六个属性: r.text : 获取网站源码 r.encoding :访问或定制编码方式

2021-10-21 15:46:12 784

原创 尚硅谷python爬虫(三)-selenium

一、selenium1.selenium简介Selenium是一个用于Web应用程序测试的工具。 Selenium 测试直接运行在浏览器中,就像真正的用户在操作一样。 支持通过各种driver(FirfoxDriver,IternetExplorerDriver,OperaDriver,ChromeDriver)驱动 真实浏览器完成测试。 selenium也是支持无界面浏览器操作的。2.selenium用途功能模拟浏览器功能,自动执行网页中的js代码,实现动态加载3.selenium的

2021-10-21 11:09:21 761

原创 尚硅谷python爬虫(二)-解析方法

一、xpath解析所谓解析,是帮助我们获取网页源码中部分数据的一种方式。

2021-10-20 22:51:58 1164

原创 尚硅谷python爬虫(一)-urllib

一、urlib库1.urlib库的使用urllib.request.urlopen() 模拟浏览器向服务器发送请求 response 服务器返回的数据:一个类型,六个方法 response的数据类型是HttpResponse 字节‐‐>字符串 解码decode 字符串‐‐>字节 编码encode read() 字节形式读取二进制 扩展:rede(5)返回前几个字节 readline() 只能 读取一行 readlines() 一行一行读取 直至结束 getco

2021-10-20 09:50:13 1998

原创 Python补充

一、列表的增删改查1.添加元素append:在末尾添加元素 insert:在指定位置插入元素 extend:合并两个列表2.修改元素通过下表访问列表元素,修改列表是,为指定列表下表赋值就行3.查找元素查找即查看指定元素是否否存在,使用in,not in4.删除元素...

2021-10-17 20:09:53 71

原创 尚硅谷Linux-笔记总结

//创建一个带id的链接并且使用target="_self"参数来避免新开窗口<a href="#id_1" target="_self">跳转到标题1</a>//创建一个带id的heading<h1 id="id_1">标题1</h1>

2021-10-17 09:40:45 571

原创 Linux-第十五章 实操篇 RPM和YUM

1.rpm包管理rpm是一种用于互联网下载包的打包及安装工具,包含在某些Linux分发版中,生成具有.RPM扩展名的文件。RPM是RedHat Package Manager(RedHat 软件包管理工具)的缩写,类似windows的setup.exe①rpm包的简单查询指令查询已安装的rpm列表:rpm -qa|grep xx②rpm包名基本格式:一个rpm包名:firefox-45.0.1-1.el6.centos.x86_64.rpm③rpm包的其他查询指令1)rpm -.

2021-10-09 16:23:28 141

原创 Linux-第十四章 实操篇 进程管理

1.进程基本介绍①在Linux中,每个执行的**程序(代码)**都称为一个进程。每个进程都分配一个ID号②每一个进程,都会对应一个父进程,而这个父进程可以复制多个子进程。例如www服务器。③每个进程都可能以两种方式存在。前台和后台。前台进程:用户目前的屏幕上可以进行操作的。后台进程:实际在操作,但由于屏幕上无法看到的进程,通常使用后台方式执行。④一般系统的服务都是以后台进程的方式存在,而且都会常驻在系统中,直到关机才结束。2.显示系统执行的进程1)基本语法:ps (一般来讲,使用

2021-10-09 15:19:14 128

原创 Linux-第十三章 实操篇 网络配置

1.linux网络配置原理图(含虚拟机)目前网络配置采用的是.net2.查看网络的ip和网关①查看虚拟网络编辑器②修改ip地址(修改虚拟网络的ip)③查看网关④查看windows环境中VMnet8网络配置(ipcongfig)1)使用ipconfig查看2)界面查看3.ping指令测试主机之间网络的连通性基本语法:ping 目的主机4.Linux网络环境配置-获取ip①自动获取linux启动后或自动获取ip,缺点是每次自动获取的ip地址..

2021-10-09 10:28:05 122

原创 Linux-第十二章 实操篇 Linux磁盘分区、挂载

1.分区基础知识①分区方式:1)mbr分区:最多支持四个主分区系统只能安装在主分区扩展分区要占一个主分区MBR最大只支持2TB,但拥有最好的兼容性2)gtp分区支持无限多个主分区(但是操作系统可能有限制,比如wimdows下最多128分区)最大支持18EB的大容量(1EB=1024PB,1PB=1024TB)windows7 64位以后支持gtp2.windows下的磁盘分区3.linux分区①原理:1)Linux来说无论有几个分区,分给哪一个目.

2021-10-08 21:57:34 143

原创 Linux-第十一章 实操篇 crontab任务调度

1.crontab进行定时任务原理图2.概述任务调度:是指系统在某个时间执行的特定的命令或程序任务调度分类:①系统工作:有些重要的工作必须周而复始得分执行,如:病毒扫描②个别用户工作:个别用户可能希望执行某些程序,比如对mysql数据库的备份3.基本语法crontab [选项-e 编辑crontab定时任务 -l 查询crontab任务 -f 删除当前用户所有的crontab任务 4.案例1)任务要求2.步骤3.参数说明

2021-10-08 14:12:30 185

原创 Linux-第十章 实操篇 组管理和权限管理

1.Linux组介绍:linux中的每个用户必须属于一个组,不能独立于组外。在Linux中每个文件有所有者、所在组及其他组的概念文件:所有者、所在组、其他组、改变用户所在组2.文件/目录 所有者一般为文件的创建者。①查看文件的所有者语法:ls -ahl②修改文件所有者语法:chown 用户名 文件名3.组的创建语法:groupadd4.文件/目录 所在组当某个用户创建了一个文件后,默认这个文件所在组就是这个用户所在组①查看文件/目录所在组语法:ls

2021-10-08 14:01:37 1751

原创 Linux-第九章 实操篇 实用指令

1. 运行级别[0]关机[1]单用户【找回丢失密码】[2]多用户状态没有网络服务[3]多用户状态有网络服务[4]系统未使用保留给用户[5]图形界面[6]系统重启2.切换运行级别指令语法:init 数字(数字即为运行级别)2.帮助指令当我们对某个指令不熟悉时候,可以使用linux的帮助指令来了解指令使用方法:man/help①man语法: man [命令或配置文件]②help语法:help [命令]3.文件目录类①pwd指令(Print wo

2021-10-07 14:48:11 176

原创 Linux-第八章 实操篇 用户管理

1.基本介绍①Linux是一个多用户、多任务的操作系统,要使用资源,必须先申请一个账号,然后以这个账号的身份进入系统。②Linux的用户至少要属于一个组。2.添加用户①添加用户语法:useradd 【可选项】 用户名②创建用户后,会自动创建和用户同名的家目录,也可以通过:useradd -d 指定目录 新用户名例:useradd -d /home/aaa/usera3.指定用户修改密码修改用户密码语法:passwd 用户名4.删除用户①删除用户但保留家目...

2021-10-06 14:27:53 171

原创 Linux-第七章 实操篇 开机、重启和用户登陆注销

1.关机和重启命令①shutdownshutdown -h now:表示立即关机shutdown -h 1:表示一分钟后关机shutdown -r now:立即重启②halt:直接使用,效果等价于关机③reboot:重启系统④sync:把内存数据同步到磁盘2.用户登录和注销①登录时尽量少用root登录,避免操作失误,因为root有最大的权限。可以用普通用户登录,再su -用户名 切换②在提示符后输入logout(在运行级别3以下才有效)即可注销登录。(root用户输入

2021-10-06 11:06:03 163

原创 Linux-第六章 实操篇 vi和vim编辑器

1.vi与vimlinux系统会内建vi文本编辑器,vim具有程序编辑能力,是vi增强版2.vi与vim的命令模式三种模式:正常模式、插入/编辑模式、命令模式①正常模式(可使用快捷键)以vim打开一个档案就直接进入正常模式,此模式中,可使用上下左右键来移动光标,可使用删除字符和删除整行来处理档案内容,也可以使用复制粘贴②插入/编辑模式在命令模式下按下 i, I, o, O, a, A, r, R 等任何一个字母之后才会进入编辑模式, 一般来说按 i 即可。③命令模式按下:

2021-10-06 10:27:41 259

原创 Linux-第四章 基础篇 linux的目录结构

1.linux目录结构基本介绍Linux的文件系统是采用级层式的树状目录结构,在此结构中的最上层是根目录“/”,然后在此目录下在创建其他文件夹2.目录结构具体介绍2.1 /bin: 是Binary的缩写,这个目录存放着最经常使用的文件2.2 /sbin:s就是super user的意思,这里存放着系统管理员使用的系统管理程序2.3 /home:存放着普通用户的主目录,在linux中的每一个用户都有一个自己的目录,一般该目录是以用户的账号命名的2.4 /root:...

2021-10-06 10:01:57 267

原创 Linux-第二章 基础篇 Linux入门

一、linux介绍:①Linux是一款操作系统;免费、开源、安全、高效、稳定。处理并发能力强。②linux创始人 林纳斯③linux主要发行版本:CentoSE、Redhat、Ubuntu等④主流操作系统:windows、android、ios、linux、车载系统⑤linux与windows比较...

2021-10-05 15:09:32 277

原创 便利蜂笔试

数据分析师 09021.t检验,异常值,剔除后,选择样本量大的还是小的2.服从正态分布x~n(3338,5952),体重小于2719g为轻,选10个,不超过一个偏轻的概率正态分布概率解答3.概率密度函数与概率计算4.离散分布与连续分布常见离散分布:两点分布、几何分布、泊松分布、二项分布①两点分布:只有两种实验结果②几何分布:描述伯努利试验中,第一次成功所进行的试验次数。③二项分布:描述在独立n次实验中成功次数,相当于多次进行伯努利实验。④泊松分布:某一区间

2021-09-14 21:04:15 714

原创 顺丰笔试-0830

大数据分析与挖掘工程师 0830一、填空题1.浮点数的绝对值趋向于无穷会产生什么溢出?算术溢出(arithmetic overflow)是指计算机进行算术运算产生的结果超出机器所能表示的范围。在定点计算机中:从正方向超过了数的表示范围,称为上溢;从负方向超过了数的表示范围,则称为下溢。在浮点计算机中:浮点数的表示范围主要由阶码来决定。不论数的符号是正还是负,若阶码从正的方向超出了阶码的表示范围,称为上溢;若阶码从负的方向超出阶码的表示范围,或者尾数为“0”时,统称为下溢。2.图.

2021-09-03 09:10:54 131

简历制作及面试技巧 14.pdf

简历制作及面试技巧 14.pdf

2021-04-01

中科院与高校区别.pdf

中科院与高校区别.pdf

2021-04-01

国家级竞赛整理.pdf

国家级竞赛整理.pdf

2021-04-01

保研材料文件夹目录.pdf

保研材料文件夹目录.pdf

2021-04-01

保研流程(涉及面试问题、英文个人简介、面试技巧).pdf

保研流程(涉及面试问题、英文个人简介、面试技巧).pdf

2021-04-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除