自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 数据分析Day5 2023/8/5

np.diff()为各相邻项的差 np.nonzero()会输出两个array,第一个是行第二个是列,会输出非0数位置的行列信息。np.mean()计算平均数 np.median()求中位数 np.cumsum为逐渐累加的值。np.clip(A,MIN,MAX)会将小于MIN的值变为MIN,将大于MAX的值变为MAX。np.argmax np.argmin 可以索引array中的最大值与最小值的位置。np.transpose()是转置,将行与列互换。np.sort()会逐行进行排序。

2023-08-06 21:02:31 70

原创 数据分析Day4 2023/8/4

随机生成矩阵通过np.random.random((x,y)) 括号内为shape,第一个random是模块,之后的random为random模块下的random函数。通过np.linspace(x,y,z)可以将x-y分为z份,输出结果为分段点的数值。通过np.arange(10,20,2)可以生成一个从10开始,步长为2最终到达18的array。array.shape 可以表达np.array里array的形状,如(2,3) 即两行三列。np.sin() np.cos()等可以运算三角函数值。

2023-08-06 20:45:07 68

原创 数据分析Day3 2023/8/3

其中σ代表整体的方差,n为抽样数量,N为总体数量。δ为总体方差,Δ为要控制的方差,N为总数。

2023-08-06 17:43:26 70

原创 数据分析Day2 2023/8/2

峰态系数越大,顶会越尖,越小,越平缓。可以用来判断是否为正态分布,如果与3相差2及以上,那么大概率不是正态分布。数据分析的集中趋势分析的数学方法 :均值、中位数、众数、分位数。偏态系数,S为正时,为正偏,说明均值比较大,S为 负时,则相反。离中趋势分析的数学方法为标准差以及方差,包括正态分布。正态分布和三大分布:标准正态分布是均值为0,方差为1。如果位置为小数,则去尾数+差*小数部分。三大分布为:卡方分布、T分布、F分布。Q1的位置=(n+1)*0.25。Q2的位置= (n+1)*0.5。

2023-08-06 16:48:43 90

原创 数据分析Day1 2023 8/1

数据库面对业务储存,仓库面对主题储存(主题:较高层次上对分析对象数据的一个完整并且一致的描述)。监测与抓取:抓取为直接解析网页、接口、文件信息,抓取的常用工具urllib、urllib2、requests、scrapy、phantomJS、beautifulSoup、Xpath(lxml);常用的数据学习网站: kaggle、TianChi天池、ImageNet、Open Images、统计局、政府机构、公司财报等。数据获取的手段一般有:数据仓库、监测与抓取、填写、日志、埋点、计算。

2023-08-06 14:47:15 32

原创 爬虫学习Day20 2023/7/28

/: 查找所有子孙节点,不考虑层级关系。

2023-07-30 23:43:45 603

原创 爬虫学习Day19 2023/7/27

今天了解xpath插件,内容较多,使用说明以及基本代码在Day20与Day20内容一起体现。

2023-07-30 23:15:31 64

原创 爬虫学习Day18 2023/7/26

今天了解了代理池的概念。当我们使用同一ip高频率访问同一网站时,可能会被网站封禁ip,如果我们有一系列ip进行访问,那么这个问题就可以解决。用python实现代理池需要使用random模块。酱紫就可以实现代理池的功能啦。

2023-07-30 22:54:44 60

原创 爬虫学习Day17 2023/7/25

今天学习了代理服务器的一些知识。爬虫时,我们可能会高频访问一个网页,可能会被网页检查到异常,封IP。这时我们使用代理功能。x的值以字典的形式存在,在网上得到代理IP以及PORT,'http':'ip:port'。我们在使用代理时需要使用到handler请求定制。

2023-07-30 22:43:09 42

原创 爬虫学习Day16 2023/7/24

在网页的检查中,我们可以在Element里看到网页的信息,个人信息页面是utf-8,但是还报错了编码错误,因为并没有进入到个人信息页面而是跳转到了登陆页面。这时就可能是网页的meta charset不是utf-8,而是一些特定的字符串。有时我们已经爬取到需要的内容,但是无法加载进入,可能是缺少了cookie和referer。cookie一般携带登录信息,referer判断当前路径是不是由上一个路径进来的。一般情况下是图片防盗的措施。有些网页需要referer,有些不需要。今天认识了一些初级的反扒手段。

2023-07-30 21:38:03 46 1

原创 爬虫学习Day15 2023/7/21

定制更高级的请求头(随着业务逻辑的复杂 请求对象的定制已经满足不了我们的需求 (动态cookie和代理不能使用请求对象的定制)urllib.request.Request(url,headers ,data)可以定制请求头。# (1)获取hanlder对象。# (2)获取opener对演。# (3) 调用open万法。

2023-07-23 22:43:58 600 2

原创 爬虫学习Day14 2023/7/20

4.通过ur11ib发送请求的时候,有可能会发送失败,这个时候如果想让你的代码更加的健壮,可以通过try-except进行捕获异常,异常有两类,URLError\HTTPError。3.http错误: http错误是针对浏览器无法连接到服务器而增加出来的错误提示。2.导入的包urllib.error.HTTPErrorurllib.error.URLError。如果要对异常做出反应与提醒,则与之前的Python基础中的异常内容相同。1.HTTPError类是URLError类的子类。

2023-07-23 22:35:23 606

原创 爬虫学习Day13 2023/7/19

start_page = int(input('请输入起始页码'))end_page = int(input('请输入结束页码'))data = {'cname' :'运城',

2023-07-23 22:06:59 614

原创 爬虫学习Day12 2023/7/18

我们通过inspect我们可以发现一页是二十部电影的内容,limit就是一页的限制数量,start是开始电影的序号。start_page = int(input('请输入起始页码'))end_page = int(input('请输入结束页码'))通过观察不同页码的Url,

2023-07-23 21:57:32 594

原创 爬虫学习Day11 2023/7/17

今天完成豆瓣前N页电影排行的爬取,内容较多,两天一结=v=。内容于2023/7/18呈现。

2023-07-23 21:37:29 568

原创 爬虫学习Day10 2023/7/14

因为这个是get请求方式,所以不用定制data,也不用json,相比之下方便许多。

2023-07-17 22:48:30 582

原创 爬虫学习Day9 2023/7/13

今天练习豆瓣电影排行爬取,内容较多,内容于Day10呈现。

2023-07-17 22:39:43 46

原创 爬虫学习Day8 2023/7/12

这里需要注意的是data变多了,且headers不能是UA了,必须是Cookie。今天练习了访问详细翻译。

2023-07-17 22:38:07 624 1

原创 爬虫学习Day6 2023/7/10

今天进行爬虫的post请求小实践,由于内容有点点复杂,和明天放在一起。内容由Day7呈现

2023-07-17 22:25:23 63

原创 爬虫学习Day7 2023/7/11

需要注意的是post请求的参数必须要进行编码,编码后需要调用encode方法‘data = urllib.parse.urlencode(data).encode('utf-8')’即这一步。在百度翻译网页右键点开inspect,找到有效数据,复制url,访问方式为post,所以要自己定制request,最后用json。练习内容为用python访问百度翻译,得到目标信息。

2023-07-17 22:24:01 539 1

原创 爬虫学习Day5 2023/7/8

今天看了一些前端的东西,迷迷糊糊的,奇奇怪怪的..........英语有待提高确实是。

2023-07-09 22:04:25 63

原创 爬虫学习Day4 2023/7/7

post请求所需要的数据不会拼接在url后,而是在定制请求对象的参数中输入,比如urllib.request.Request(url=,data=,headers=).encode('utf-8')。后面的encode是因为post请求的方式的参数必须编码。今天生日,就这些可以吧,手动狗头。

2023-07-09 21:59:05 562

原创 爬虫学习Day3 2023/7/6

这个编码表被称为ASCII编码,比如大写字母A的编码是65,小写字母z的编码是122。你可以想得到的是,全世界有上百种语言,日本把日文编到shift JIS里,韩国把韩文编到Euc-kr里各国有各国的标准,就会不可避免地出现冲突,结果就是,在多语言混合的文本中,显示出来会有乱码.因此,Unicode应运而生,Unicode把所有语言都统一到一套编码里,这样就不会再有乱码问题了Unicode标准也在不断发展,但最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符就需要4个字节)也了解了编码集的演变。

2023-07-09 21:40:06 31

原创 爬虫学习Day2 2023/7/5

request=urllib.request.Request(url=,headers=),urllib.request.urlopen(request)前为定制,后为网页打开。UA即user agent,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本。浏览器内核、浏览器渲染引擎、浏览器语言、浏览器插件等。url(网址)有协议、主机、端口号、路径、参数、锚点组成。常见的http、https就是协议,点后的(如baidu)为主机,其他几部分一般看不见。

2023-07-09 18:50:47 56

原创 爬虫学习Day1 2023/7/4

是行,<tr>和与

2023-07-04 23:18:45 36

原创 Python基础学习Day6 2023/7/2

使用时需要先import JSON,json.dumps(list),也可以json.dump(list,fp)。这里的fp类似于指针,‘w’的含义是write,即可以编写,但需要注意的是,编写时会先清空打开的文件夹。‘a’的含义是append,即追加,这个就可以往文件夹中加入内容。定义函数用def进行def f1(),括号里可以放形参,在使用时加入实参即可进行函数运算,返回值用return。定义在函数内部的为局部变量,定义在函数外的为全局变量。今天学了函数的一系列知识点,文件的打开,序列化反序列化。

2023-07-02 20:00:31 44 1

原创 Python基础学习Day5 2023/7/1

今天帮忙搬家搬了一天,累闷了,学不了一点,QAQ,明天没啥事,学6、7个钟补回来。

2023-07-01 23:18:18 76

原创 Python基础学习Day4 2023/6/30

遍历可以得到三种结果,一种.keys,得到的就是keys,一种是value,得到的就是value,一种是items,得到的是所有项目。如果删除了字典,那么其将完全不存在。如果要查看元素,有两种方法:方法一、print(info【‘name’】)方法二、print(info.get(‘name’))如果查找的元素不存在,那么会返回None。昨天元组的内容忘了总结,元组是无法改变的列表,在输入元组值时,如果元组只有一个元素,那么必须在元素后加一个逗号,不然的话该元组的类型会变为int,加了逗号后就会正常。

2023-06-30 23:58:32 39

原创 Python基础学习Day3 2023/6/29

其中有一个range,range(i)执行的是【0,i),是一个左闭右开区间,range(1,6)则是【1,6)。for i in range(1,10,3)执行的结果则是1,4,7。if这玩意Python里的作用跟C语言里的作用差不多,判断条件是否符合,符合执行之后的语句,不符合则跳过。elif看着倒是个新东西,但其实也就是else+if,第一个if条件不符合就判断elseif的条件,以此类推执行程序。find查找指定内容在字符串中是否存在,如果存在,返回该内容在字符串中第一次出现的位置(从0开始);

2023-06-29 23:19:30 26

原创 Python基础学习 Day2 2023/6/28

Python中变量的类型有int(整形)、float(浮点型)、complex(复数)、Boolean(布尔)、string(字符串)、list(列表)、tuple(元组)、dict(字典)。没有了C语言中的long、double等,而且Python中的变量不用赋值,因为Python会自己检测类型赋予内存,还是蛮方便的,之前学C的时候经常写着写着在前面补变量,很麻烦,而且会打乱思路。赋值运算符,也就是=没啥好说的,就赋值呗,唯一需要注意的点是d,e,f=3,4,5 是成立的,等价于d=3、e=4、f=5。

2023-06-28 23:54:28 27

原创 Python基础学习 Day1 2023/6/27

其中第一二中都难以保存python代码,故一般使用IDE进行python运行,如果不用IDE,可以在桌面上新建txt文档,修改后缀为.py进行可保存编程,如果需要运行可在cmd中输入python+文件路径(可通过拖动文件实现快速输入)运行。我选择了Pycharm作为我使用python的IDE,完成了Pycharm的设置,大致了解了Pycharm的使用方式以及界面的作用。还了解了pip的使用,pip是Python包的管理工具,可以在cmd中输入pip list显示已安装的Python包;

2023-06-27 23:59:21 60

原创 暑假实践项目报告

税务业务分为企业税、海关税、间接税、个税等,并可根据不同客户细分不同业务小组(比如专门对接金融业客户的金融服务组,和对接通用行业的企业税组专做个税咨询的个税组等)。年度财务报表审计 (涉及和税务部门的合合作)、中期审计 (涉及和税务部门的合作)、IPO审计 (涉及和税务部门的合作)、清算审计、尽职调查、各种专项审计等等。:通过python实现一些基础算法(例如搜索(线性和二分查找)、排序(冒泡排序、选择排序)、递归函数(阶乘、斐波那契数列)、时间复杂度(线性、二次和常量);:完成抖音视频、评论的爬取;

2023-06-25 22:13:59 45 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除