python
江水居士
这个作者很懒,什么都没留下…
展开
-
python常用操作
【代码】python常用操作。原创 2022-10-21 11:03:56 · 289 阅读 · 0 评论 -
python用Levenshtein计算文本相似度
from Levenshtein import *apply_edit() #根据第一个参数editops()给出的操作权重,对第一个字符串基于第二个字符串进行相对于权重的操作 distance() #计算2个字符串之间需要操作的绝对距离 editops() #找到将一个字符串转换成另外一个字符串的所有编辑操作序列 hamming() #计算2个字符串不同字符的个数,这2个字符串长度必须相同 inverse() #用于反转所有的编辑操作序列 jaro() #计算2个字符串的相识度.原创 2021-07-23 16:00:46 · 520 阅读 · 0 评论 -
python连接Hive数据库
import pandas as pdfrom impala.dbapi import connectclass Hive: def __init__(self, host, port=1050): self.conn = connect(host, port) self.cursor = self.conn.cursor() def close(self): self.cursor.close() self.conn.原创 2020-08-12 12:13:20 · 1221 阅读 · 0 评论 -
python中的pd进行数据处理
1、用pd读取excel中的的某一列生成列表,并将集合或列表写进exceldef excel_one_line_to_list(): df = pd.read_excel(r"poi_grid.xlsx",usecols=[1], names=None) # 读取项目名称列,不要列名 df_li = df.values.tolist() # print(df_li) result = [] for s_li in df原创 2020-08-12 12:06:44 · 14720 阅读 · 0 评论 -
JetBrains IDEA/Pycharm/Phpstorm/webstorm等破解教程:使用教育邮箱免费激活
1.在网址https://www.jetbrains.com/store/?fromMenu#edition=discounts中说明如下,可见JetBrains对于师生是免费的。2.在网址https://www.jetbrains.com/zh/student/即可申请。3.申请完成后,在自己的教育邮箱中点击Confirm Request,再在跳转的新网址中阅读协议并确认(好像是协议),即可...原创 2020-01-20 19:25:24 · 1635 阅读 · 0 评论 -
python去哪儿网的旅游景点信息
爬取过程分析:1、网站url:‘https://piao.qunar.com/ticket/list.htm?keyword=北京&page=1’2、http请求方法为get方法3、用beautifulsoup提取所需要的信息4、将爬取的信息存至本地具体代码如下:import requestsfrom bs4 import BeautifulSoupclass QuNa...原创 2019-08-02 10:17:37 · 1144 阅读 · 0 评论 -
python爬取北京政务公开惠民地图信息
爬取过程分析:1、分析网页可知上面的数据为json格式2、找到json数据的请求地址https://map.beijing.gov.cn/api/place_list_for_category.json?categoryId=3、设计数据库的表4、将爬取的数据存到mysql数据库中具体代码如下:import pprintimport requestsfrom DBcm impor...原创 2019-08-01 16:14:18 · 593 阅读 · 0 评论 -
Python入门基础知识(二)
一、构建一个Web应用除了已经掌握的python知识,要构建一个实际运行的服务器端Web应用,还需要了解Web应用框架,它提供了一组通用的基础技术,可以基于这些技术构建你的Web应用,在这里,我们直接选择一个名为Flask的流行框架安装Flaskwindows上,打开一个命令行提示窗口,一定要作为管理员运行,执行下面的命令:py -3 -m pip install flask在Mac ...原创 2019-07-26 16:54:49 · 343 阅读 · 0 评论 -
Python入门基础知识(一)
一、关于安装1.python环境安装https://www.cnblogs.com/Yanjy-OnlyOne/p/9764143.html2.IDE pycharm安装,用python自带的IDE IDLE也不错https://blog.csdn.net/qq_15698613/article/details/86502371关于pycharm的破解,试了很多方法,永久破解的方法基本都...原创 2019-07-26 14:33:22 · 6004 阅读 · 0 评论 -
python爬取链家二手房信息
爬取过程分析:1、链家网url:https://bj.lianjia.com/ershoufang/pg2/显示的二手房信息每个url递增一2、访问时要加头信息,否则无法访问3、用beautifulsoup解析网页,找到二手房信息4、将信息简单处理后保存成csv文件具体代码如下:import requestsimport refrom bs4 import BeautifulSo...原创 2019-07-31 15:10:28 · 3107 阅读 · 2 评论 -
python爬取豆瓣电影Top250表单
爬取过程分析:1、url:https://movie.douban.com/top250?start=0&filter=分析该url发现每页显示25部电影,url地址每次递增25显示下一页面2、利用beautifulsoup得到电影名字,评分和图片3、将得到的电影图片存至本地,以电影名+评分命名具体代码如下:import requestsfrom bs4 import Bea...原创 2019-07-31 09:36:59 · 824 阅读 · 0 评论 -
python爬取好豆网菜谱
爬取过程分析:1、分析网页,发现好豆网的菜谱的url均为:https://www.haodou.com/recipe/id/2、用beautifulsoup解析网页获得菜名,图片及菜谱3、将菜的图片存至本地,以菜名命名,将菜谱import requestsimport urllibimport reimport lxmlfrom bs4 import BeautifulSoup...原创 2019-07-30 18:13:04 · 1138 阅读 · 0 评论 -
python爬取网页唯美图片
爬取过程分析:1、打开url:http://www.mmonly.cc/wmtp/wmwz/, 调出开发者工具,刷新页面2、算了,不想分析了,比较简单( ̄^ ̄゜)看看代码吧:import urllibimport requestsfrom bs4 import BeautifulSoupimport osdef Download(url, picAlt, name): ...原创 2019-08-02 16:48:55 · 363 阅读 · 0 评论 -
python爬取网易云音乐专辑的所有歌曲
爬取过程分析:1、确定要爬取专辑的url实际地址2、通过xpath筛选数据,找出该专辑所有歌曲的id3、将歌曲的id与外链地址相拼接,得到歌曲的真是下载地址网易云音乐外链地址:https://link.hhtjim.com/4、下载,将歌曲写入文件代码如下:# import requests## url = 'https://m10.music.126.net/2019073...原创 2019-07-30 10:17:31 · 2158 阅读 · 1 评论 -
python3,使用sys.setdefaultencoding('utf-8'),编译时报错
正常情况下,我们在使用python做页面开发时,防止中文出现乱码问题,python2 情况下会使用:如下语句—import requests, re, sysreload(sys)sys.setdefaultencoding("utf-8")但在python3下,报错: sys.setdefaultencoding('utf-8')AttributeError: module ...原创 2019-07-29 10:40:39 · 3474 阅读 · 0 评论