- 博客(32)
- 收藏
- 关注
原创 数据分析Day5 2023/8/5
np.diff()为各相邻项的差 np.nonzero()会输出两个array,第一个是行第二个是列,会输出非0数位置的行列信息。np.mean()计算平均数 np.median()求中位数 np.cumsum为逐渐累加的值。np.clip(A,MIN,MAX)会将小于MIN的值变为MIN,将大于MAX的值变为MAX。np.argmax np.argmin 可以索引array中的最大值与最小值的位置。np.transpose()是转置,将行与列互换。np.sort()会逐行进行排序。
2023-08-06 21:02:31 70
原创 数据分析Day4 2023/8/4
随机生成矩阵通过np.random.random((x,y)) 括号内为shape,第一个random是模块,之后的random为random模块下的random函数。通过np.linspace(x,y,z)可以将x-y分为z份,输出结果为分段点的数值。通过np.arange(10,20,2)可以生成一个从10开始,步长为2最终到达18的array。array.shape 可以表达np.array里array的形状,如(2,3) 即两行三列。np.sin() np.cos()等可以运算三角函数值。
2023-08-06 20:45:07 68
原创 数据分析Day2 2023/8/2
峰态系数越大,顶会越尖,越小,越平缓。可以用来判断是否为正态分布,如果与3相差2及以上,那么大概率不是正态分布。数据分析的集中趋势分析的数学方法 :均值、中位数、众数、分位数。偏态系数,S为正时,为正偏,说明均值比较大,S为 负时,则相反。离中趋势分析的数学方法为标准差以及方差,包括正态分布。正态分布和三大分布:标准正态分布是均值为0,方差为1。如果位置为小数,则去尾数+差*小数部分。三大分布为:卡方分布、T分布、F分布。Q1的位置=(n+1)*0.25。Q2的位置= (n+1)*0.5。
2023-08-06 16:48:43 90
原创 数据分析Day1 2023 8/1
数据库面对业务储存,仓库面对主题储存(主题:较高层次上对分析对象数据的一个完整并且一致的描述)。监测与抓取:抓取为直接解析网页、接口、文件信息,抓取的常用工具urllib、urllib2、requests、scrapy、phantomJS、beautifulSoup、Xpath(lxml);常用的数据学习网站: kaggle、TianChi天池、ImageNet、Open Images、统计局、政府机构、公司财报等。数据获取的手段一般有:数据仓库、监测与抓取、填写、日志、埋点、计算。
2023-08-06 14:47:15 32
原创 爬虫学习Day18 2023/7/26
今天了解了代理池的概念。当我们使用同一ip高频率访问同一网站时,可能会被网站封禁ip,如果我们有一系列ip进行访问,那么这个问题就可以解决。用python实现代理池需要使用random模块。酱紫就可以实现代理池的功能啦。
2023-07-30 22:54:44 60
原创 爬虫学习Day17 2023/7/25
今天学习了代理服务器的一些知识。爬虫时,我们可能会高频访问一个网页,可能会被网页检查到异常,封IP。这时我们使用代理功能。x的值以字典的形式存在,在网上得到代理IP以及PORT,'http':'ip:port'。我们在使用代理时需要使用到handler请求定制。
2023-07-30 22:43:09 42
原创 爬虫学习Day16 2023/7/24
在网页的检查中,我们可以在Element里看到网页的信息,个人信息页面是utf-8,但是还报错了编码错误,因为并没有进入到个人信息页面而是跳转到了登陆页面。这时就可能是网页的meta charset不是utf-8,而是一些特定的字符串。有时我们已经爬取到需要的内容,但是无法加载进入,可能是缺少了cookie和referer。cookie一般携带登录信息,referer判断当前路径是不是由上一个路径进来的。一般情况下是图片防盗的措施。有些网页需要referer,有些不需要。今天认识了一些初级的反扒手段。
2023-07-30 21:38:03 46 1
原创 爬虫学习Day15 2023/7/21
定制更高级的请求头(随着业务逻辑的复杂 请求对象的定制已经满足不了我们的需求 (动态cookie和代理不能使用请求对象的定制)urllib.request.Request(url,headers ,data)可以定制请求头。# (1)获取hanlder对象。# (2)获取opener对演。# (3) 调用open万法。
2023-07-23 22:43:58 600 2
原创 爬虫学习Day14 2023/7/20
4.通过ur11ib发送请求的时候,有可能会发送失败,这个时候如果想让你的代码更加的健壮,可以通过try-except进行捕获异常,异常有两类,URLError\HTTPError。3.http错误: http错误是针对浏览器无法连接到服务器而增加出来的错误提示。2.导入的包urllib.error.HTTPErrorurllib.error.URLError。如果要对异常做出反应与提醒,则与之前的Python基础中的异常内容相同。1.HTTPError类是URLError类的子类。
2023-07-23 22:35:23 606
原创 爬虫学习Day13 2023/7/19
start_page = int(input('请输入起始页码'))end_page = int(input('请输入结束页码'))data = {'cname' :'运城',
2023-07-23 22:06:59 614
原创 爬虫学习Day12 2023/7/18
我们通过inspect我们可以发现一页是二十部电影的内容,limit就是一页的限制数量,start是开始电影的序号。start_page = int(input('请输入起始页码'))end_page = int(input('请输入结束页码'))通过观察不同页码的Url,
2023-07-23 21:57:32 594
原创 爬虫学习Day8 2023/7/12
这里需要注意的是data变多了,且headers不能是UA了,必须是Cookie。今天练习了访问详细翻译。
2023-07-17 22:38:07 624 1
原创 爬虫学习Day7 2023/7/11
需要注意的是post请求的参数必须要进行编码,编码后需要调用encode方法‘data = urllib.parse.urlencode(data).encode('utf-8')’即这一步。在百度翻译网页右键点开inspect,找到有效数据,复制url,访问方式为post,所以要自己定制request,最后用json。练习内容为用python访问百度翻译,得到目标信息。
2023-07-17 22:24:01 539 1
原创 爬虫学习Day4 2023/7/7
post请求所需要的数据不会拼接在url后,而是在定制请求对象的参数中输入,比如urllib.request.Request(url=,data=,headers=).encode('utf-8')。后面的encode是因为post请求的方式的参数必须编码。今天生日,就这些可以吧,手动狗头。
2023-07-09 21:59:05 562
原创 爬虫学习Day3 2023/7/6
这个编码表被称为ASCII编码,比如大写字母A的编码是65,小写字母z的编码是122。你可以想得到的是,全世界有上百种语言,日本把日文编到shift JIS里,韩国把韩文编到Euc-kr里各国有各国的标准,就会不可避免地出现冲突,结果就是,在多语言混合的文本中,显示出来会有乱码.因此,Unicode应运而生,Unicode把所有语言都统一到一套编码里,这样就不会再有乱码问题了Unicode标准也在不断发展,但最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符就需要4个字节)也了解了编码集的演变。
2023-07-09 21:40:06 31
原创 爬虫学习Day2 2023/7/5
request=urllib.request.Request(url=,headers=),urllib.request.urlopen(request)前为定制,后为网页打开。UA即user agent,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本。浏览器内核、浏览器渲染引擎、浏览器语言、浏览器插件等。url(网址)有协议、主机、端口号、路径、参数、锚点组成。常见的http、https就是协议,点后的(如baidu)为主机,其他几部分一般看不见。
2023-07-09 18:50:47 56
原创 Python基础学习Day6 2023/7/2
使用时需要先import JSON,json.dumps(list),也可以json.dump(list,fp)。这里的fp类似于指针,‘w’的含义是write,即可以编写,但需要注意的是,编写时会先清空打开的文件夹。‘a’的含义是append,即追加,这个就可以往文件夹中加入内容。定义函数用def进行def f1(),括号里可以放形参,在使用时加入实参即可进行函数运算,返回值用return。定义在函数内部的为局部变量,定义在函数外的为全局变量。今天学了函数的一系列知识点,文件的打开,序列化反序列化。
2023-07-02 20:00:31 44 1
原创 Python基础学习Day4 2023/6/30
遍历可以得到三种结果,一种.keys,得到的就是keys,一种是value,得到的就是value,一种是items,得到的是所有项目。如果删除了字典,那么其将完全不存在。如果要查看元素,有两种方法:方法一、print(info【‘name’】)方法二、print(info.get(‘name’))如果查找的元素不存在,那么会返回None。昨天元组的内容忘了总结,元组是无法改变的列表,在输入元组值时,如果元组只有一个元素,那么必须在元素后加一个逗号,不然的话该元组的类型会变为int,加了逗号后就会正常。
2023-06-30 23:58:32 39
原创 Python基础学习Day3 2023/6/29
其中有一个range,range(i)执行的是【0,i),是一个左闭右开区间,range(1,6)则是【1,6)。for i in range(1,10,3)执行的结果则是1,4,7。if这玩意Python里的作用跟C语言里的作用差不多,判断条件是否符合,符合执行之后的语句,不符合则跳过。elif看着倒是个新东西,但其实也就是else+if,第一个if条件不符合就判断elseif的条件,以此类推执行程序。find查找指定内容在字符串中是否存在,如果存在,返回该内容在字符串中第一次出现的位置(从0开始);
2023-06-29 23:19:30 26
原创 Python基础学习 Day2 2023/6/28
Python中变量的类型有int(整形)、float(浮点型)、complex(复数)、Boolean(布尔)、string(字符串)、list(列表)、tuple(元组)、dict(字典)。没有了C语言中的long、double等,而且Python中的变量不用赋值,因为Python会自己检测类型赋予内存,还是蛮方便的,之前学C的时候经常写着写着在前面补变量,很麻烦,而且会打乱思路。赋值运算符,也就是=没啥好说的,就赋值呗,唯一需要注意的点是d,e,f=3,4,5 是成立的,等价于d=3、e=4、f=5。
2023-06-28 23:54:28 27
原创 Python基础学习 Day1 2023/6/27
其中第一二中都难以保存python代码,故一般使用IDE进行python运行,如果不用IDE,可以在桌面上新建txt文档,修改后缀为.py进行可保存编程,如果需要运行可在cmd中输入python+文件路径(可通过拖动文件实现快速输入)运行。我选择了Pycharm作为我使用python的IDE,完成了Pycharm的设置,大致了解了Pycharm的使用方式以及界面的作用。还了解了pip的使用,pip是Python包的管理工具,可以在cmd中输入pip list显示已安装的Python包;
2023-06-27 23:59:21 60
原创 暑假实践项目报告
税务业务分为企业税、海关税、间接税、个税等,并可根据不同客户细分不同业务小组(比如专门对接金融业客户的金融服务组,和对接通用行业的企业税组专做个税咨询的个税组等)。年度财务报表审计 (涉及和税务部门的合合作)、中期审计 (涉及和税务部门的合作)、IPO审计 (涉及和税务部门的合作)、清算审计、尽职调查、各种专项审计等等。:通过python实现一些基础算法(例如搜索(线性和二分查找)、排序(冒泡排序、选择排序)、递归函数(阶乘、斐波那契数列)、时间复杂度(线性、二次和常量);:完成抖音视频、评论的爬取;
2023-06-25 22:13:59 45 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人