Python
把有趣的python知识分享给大家
WongKyunban
这个作者很懒,什么都没留下…
展开
-
__main__.py的作用
这个函数就是python的主函数入口。像C或C++、Java等程序都用一个main函数入口,这样一来这些程序都可以直接在命令行运行。,那么这份文件所在的包就可以直接在命令行执行,如我们有一个文件夹(包)dump,我们将。那么python的主函数入口在哪里呢?如果我们把这个程序入口放到。原创 2024-02-10 21:23:26 · 424 阅读 · 0 评论 -
__init__.py的作用
在python3.3之前的版本,所有的python包都需要有这样一份文件。因为importlib这个导入系统的核心模块已经可以自动侦测包,不需要。这个文件是空的,但是它也可以用来配置下当前这个python包,如指定包的版本,或者控制可见的符号,当使用。一个文件夹中有这一个文件时,那么这个文件夹就会被视作一个python包。文件的一个重要用途就是表示当前文件夹是一个包,它是可以空的。我们仍然可以使用这份文件去定义一些变量或其他的配置,它会在导入时被执行。所在的文件夹名,星号处的值就是可以在这个文件里配置。原创 2024-02-10 21:04:04 · 275 阅读 · 0 评论 -
python3创建虚拟环境venv
接下来就可以在当前环境安装依赖了。原创 2024-02-10 14:20:39 · 617 阅读 · 0 评论 -
使用pandas将excel转成json格式
安装好后,pandas会被放在excel的环境里,其他的环境不受影响。在弹出来的选项中选择我们刚刚创建的环境就可以完成配置。python 代码实现。原创 2024-02-05 16:53:17 · 1362 阅读 · 1 评论 -
annaconda如何切换当前python环境
annaconda默认的python环境是base:把各种项目的依赖都安装到base环境中不是一个好的习惯,比如说我们做爬虫项目和做自动化测试项目等所需要的依赖是不一样的,我们可以将为每个项目创建自己的环境,在各自的环境中安装自己的依赖,这是比较好的做法。原创 2024-02-04 09:43:51 · 981 阅读 · 0 评论 -
使用anaconda创建爬虫spyder工程
到此spyder的环境就创建好了,接下来我们来使用这个环境来开发。使用anaconda 创建spyder工程是很方便的。原创 2023-12-31 13:25:11 · 1648 阅读 · 0 评论 -
使用anaconda创建notebook工程
题外话,一个IDE最基本的三个主要组成部分:编辑器、集成的编译器、集成的调试器。原创 2023-12-31 11:22:40 · 1142 阅读 · 0 评论 -
股票市场简介
所谓股票市场就是已经发行的股票的转让、买卖、流通的场所,包括交易所市场和场外交易市场两类。中国有上海证券交易所和深圳证券交易所两个交易市场。所谓发行市场就是资金需求者融资的场所。资金需求者可以通过在一级市场上发行股票、债券等筹集资金。发行市场为资金供应者提给投入机会,谋求证券投入收益。发行市场与流通市场区别就是一般没有一个有形的特定场所,有时证券的出售是在发行者和投入者之间直接实行的,但更多的是通过中介机构实行,因此发行市场是由发行者、证券中介和投入者三者构成。原创 2023-12-11 14:09:55 · 153 阅读 · 0 评论 -
什么是Anaconda
在没有使用Anaconda之前,如果你的Python程序想让你的同事运行,那么你的同事可能会遇到很多包依赖问题,但是用了Anaconda后,你后发现你们都从Anaconda上下载依赖,那么前面的问题就很容易解决。Anaconda有自带的Python解析器和各种各样的与机器学习和数据科学相关的库。就是说安装Anaconda后,就有Python解析器,不用额外再安装,同时要安装机器学习与数据科学的库可以轻松在Anaconda上轻松完成。我安装后,觉得学习python,安装Anaconda就可以获得各种工具。原创 2023-12-02 10:56:18 · 264 阅读 · 0 评论 -
python使用pandas处理excel数据
使用Python Pandas库读取excel文件(.xlsx, .xls)。 使用pandas的 read_excel()方法来读取excel数据,可以读取第一个sheet,指定的sheet,多个sheet或所有的sheet。Pandas会将这些数据转化成一个 DataFrame结构,它是一个扁平的结构来的。接着就可以对数据进行数据分析了。1.安装Anaconda3我们使用anaconda3来安装和管理python库。在Anaconda的官方网站下载一个下来安装即可。2.安装xlrdPandas的原创 2020-10-19 10:39:44 · 4024 阅读 · 0 评论 -
python信息标记与信息提取
对信息进行标记后,可以增加信息的维度,形成信息的组织结构。可用于通信、程序等方面。国际公认的信息标记有三种:XML:可扩展标记语言,通过标签来构建信息。扩展性好,常用于Internet的信息交互和传递。JSON:通过有类型的键值对来构建信息。非常适合程序处理,特别适合移动云端和节点通信。一般都用在程序对接口处理的地方。JSON比XML简单,可惜的是JSON没有注释。YAML:通过无类型的...原创 2019-07-22 14:49:30 · 2028 阅读 · 0 评论 -
Robots协议
Robots协议在网站根目录下的放置一个robots.txt,指明哪些目录可以访问,那些不可以访问,如:User-agent: * Disallow: /?* Disallow: /pop/*.html Disallow: /pinpai/*.html?* User-agent: EtaoSpider Disallow: / User-agent: HuihuiSpider Di...原创 2019-07-21 17:44:23 · 1935 阅读 · 0 评论 -
Python爬虫
requests库:爬取网页robots.txt排除标准Beautiful Soup:解析HTML页面Scrapy专业爬虫框架requests:import requestsr = requests.get("http://www.baidu.com")code = r.status_codeprint(code)r.encoding = "utf-8"print(r.te...原创 2019-07-15 20:56:38 · 1932 阅读 · 0 评论 -
使用Requests库进行网页爬取
requests:import requests# 返回一个Response对象r = requests.get("http://www.baidu.com")# 状态码 200 表示成功code = r.status_codeprint(code)# encoding表示网页编码,从HTTP header中的charset中猜测出来,没有charset的话就会默认为ISO-885...原创 2019-07-15 20:58:28 · 7882 阅读 · 0 评论 -
HTTP的六个方法
HTTP使用六个方法(Get、Post、Head、Put、Patch、Delete)对URL位置主的资源进行管理。Get:获取URL位置上的全部资源Post:在请求URL位置后附加新的资源Head:获取URL位置上的资源的头信息,如果资源比较大就可以通过获取它的头信息来作分析Put:用我的数据覆盖掉URL位置上的资源。P...原创 2019-07-15 21:39:00 · 2223 阅读 · 0 评论 -
网络爬虫根据尺寸分类
目标规模特点技术要求爬取网页 玩转网页小规模数量小,爬取速度不敏感使用Requests库就可以满足需求爬取网站 爬取系列网站中规模数据量较大,对爬取速度敏感,爬慢了,数据就可能更新了可以使用Scrapy库来实现爬取全网大规模一般用于搜索引擎,如百度、google、bing等,爬取速度很关键都需要定制开发网络爬虫引发的问题有三:骚扰服...原创 2019-07-18 22:10:46 · 2357 阅读 · 0 评论 -
爬虫小实例——定向爬取及优化输出格式
定向爬取的URL:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.htmlimport requestsfrom bs4 import BeautifulSoupimport bs4# 获得爬取的内容 def get_html_text(url): try: r = requests.get(url, time...原创 2019-07-23 22:26:42 · 2086 阅读 · 0 评论 -
使用requests库爬取网络图片、视频、音乐并存储
使用网络爬虫获取网络图片并存储import requestsimport osimport uuiddef download_and_store_image(url): try: # 根据目录 root = "/home/wong/Desktop/images/" # 文件名 path = root + str(u...原创 2019-07-19 19:43:53 · 2626 阅读 · 0 评论 -
玩爬虫,怎能不了解一下正则表达式
正则表达式的常用操作符操作符说明实例.表示任何单个字符[]字符集,对单个字符给出取值范围[abc]表示a、b、c,[a-z]表示a到z的单个字符[^ ]非字符集,对单个字符给出排除范围[^abc] 表示非a或b或c的单个字符*前一个字符0次或无限次扩展abc*表示ab、abc、abcc、abccc 等+前一个字符1次或无限次扩展a...原创 2019-07-24 15:57:21 · 1951 阅读 · 0 评论 -
正则表达式Re库介绍
Re库是python的标准库,Re库采用raw string(原生字符串类型)表示正则表达式,如 r’[1-9]\d{5}’。调用方法 :import re使用原生字符串(即不包含转义符的字符串)类型表示正则表达式会更方便。python有一个转义斜杠’’,在原生字符串中斜杠’'不会被解释成转义符。正则表达式也可以用String类型来表示,但是很繁琐。电话号码的两种正则表达式写法比较:...原创 2019-07-24 17:36:06 · 2248 阅读 · 0 评论 -
使用BeautifulSoup库解析htm、xml文档
BeautifulSoup安装:~/Desktop$ sudo pip install beautifulsoup4测试:from bs4 import BeautifulSoupif __name__ == "__main__": # 第一个参数是html文档文本,第二个参数是指定的解析器 soup = BeautifulSoup('<p>data<...原创 2019-07-21 17:41:25 · 1976 阅读 · 0 评论 -
Traceback (most recent call last): File "./pip", line 9, in <module> from pip import main
在Ubuntu18.04上使用pip命令,突然报出这样一个错误wong@wong:/usr/bin$ pipTraceback (most recent call last): File "./pip", line 9, in <module> from pip import mainImportError: cannot import name 'main'解...原创 2019-07-15 20:25:32 · 3724 阅读 · 5 评论