李孟笛
码龄3年
  • 119,041
    被访问
  • 63
    原创
  • 22,386
    排名
  • 38
    粉丝
关注
提问 私信

个人简介:python初级码农

  • 加入CSDN时间: 2019-03-18
博客简介:

李孟笛的博客

博客描述:
记录下工作中的经验
查看详细资料
  • 3
    领奖
    总分 212 当月 6
个人成就
  • 获得89次点赞
  • 内容获得32次评论
  • 获得302次收藏
创作历程
  • 1篇
    2022年
  • 1篇
    2021年
  • 13篇
    2020年
  • 48篇
    2019年
成就勋章
TA的专栏
  • python爬虫
    19篇
  • python进阶
    7篇
  • 数据分析
    2篇
  • 自动化测试
    2篇
  • 好玩的小项目
    8篇
  • 经验记录
    30篇
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

如何优雅的写try...except....嵌套

我在工作中因为经常需要正则解析大量结构不一的文本,所有异常捕获用的非常频繁,甚至需要深层嵌套才能完成最终提取,所以写出的异常捕获代码异常难看,大概类似于这种吧。。。。因为深受其害,后来百般寻找解决办法,还真让我找到了可行方案。总体思想就是将所有可能性通过循环的方式捕获异常,测试例子大概是这样:def a(): print(name_a)def b(): # print(name_b) aaa = 123 return aaadef c(): prin
原创
发布博客 2022.04.22 ·
135 阅读 ·
0 点赞 ·
0 评论

python 批量移动文件

import osdef remove_file(): target_dir= r'./docx文件新' if not os.path.exists(target_dir): os.makedirs(target_dir) old_dir = os.getcwd() + '/docx文件旧' for root, dirs, files in os.walk(old_dir): for file in files: #
原创
发布博客 2021.03.05 ·
85 阅读 ·
0 点赞 ·
0 评论

将doc、docx文件转为pdf

from win32com import client as wcimport os# 将doc转pdfdef get_pdf(): # doc文档对象 w = wc.Dispatch('Word.Application') file_dir = 'D:/需要转换的文件夹路径' for root, dirs, files in os.walk(file_dir): # print(root) # 当前目录路径 # print(dirs)
原创
发布博客 2020.08.21 ·
489 阅读 ·
0 点赞 ·
0 评论

css笔记

原创
发布博客 2020.07.29 ·
47 阅读 ·
0 点赞 ·
0 评论

使用Beautifulsoup解析网页遇到的问题

今天遇到一个网页,按往常的老办法soup = BeautifulSoup(content, 'lxml')打印soup发现少了很多数据,刚开始还以为反爬,后来经过验证不是。、那么就是解析问题,我换成了soup = BeautifulSoup(content, 'xml')打印发现我想要的那块成功出现了,但是对比整个网页发现,其实还是有一些没有显示出来的,不管他,时间紧任务重,得过且过。后来进入详情页,发现又显示不全了。中间试了xpath等各种解析手段,还是显示不出来。最后还是继续使用bs4
原创
发布博客 2020.07.07 ·
1262 阅读 ·
1 点赞 ·
0 评论

时间转换

字符串类型转时间类型date = datetime.datetime.strptime(data1,'%Y-%m-%d')#获取当前时间 now=datetime.datetime.now()获取当日时间now = datetime.date.today() # 获取时间间隔 jg = now - end_date jg_days = jg.days...
原创
发布博客 2020.06.18 ·
103 阅读 ·
0 点赞 ·
0 评论

关于python爬虫post请求

今天搞爬虫代码,明明能找到post请求网址,以及请求需要带的参数,但是写到代码里就是不行运行结果却出了问题后面找到了问题只需要将data数据json格式化一下结果完美收工
原创
发布博客 2020.06.05 ·
516 阅读 ·
1 点赞 ·
0 评论

python 爬取doc文档

doc_href='https://resource.lzbank.com:18106/cportalFileServer/files//site/doc/pc/20201/12021/goods/20200521172408609syj8FsHJ.doc'conten=requests.get(doc_href).content with open('D:\爬取doc\doc\\1.doc','wb')as f: f.write(conten)另外,python没法直接处理doc
原创
发布博客 2020.05.26 ·
1011 阅读 ·
0 点赞 ·
0 评论

python代码中写sql语句的模糊查询

db = pymysql.connect(host="127.0.0.1", user="root", password="", db="demo", port=3306,charset='utf8')cur = db.cursor(cursor=pymysql.cursors.DictCursor)cur.execute('select * from demo_table where cp_name like "%%%s%%" and yh_name="云南红塔银行"' % cp_name)res
原创
发布博客 2020.05.22 ·
1136 阅读 ·
0 点赞 ·
0 评论

推荐一个在线格式化显示json网址

因为疫情,在家呆了很久,也失业了,emmmmm。。。。刚找到工作,公司老人给我推荐了一个json格式化显示网址https://json.cn复制想要显示的json文本内容放到位置1,位置2会自动显示json样式,方便数据的查看...
原创
发布博客 2020.04.15 ·
403 阅读 ·
2 点赞 ·
0 评论

python使用Beautiful定位时,标签内的属性不是正经属性的定位方法

今天做爬虫定位标签时,遇到了这样一个问题我需要通过data-region_id这个属性值来跟他的上级区域对应。当我使用它定位时很明显,这个属性值不是正经属性值,不能像id,class这些用法一样。后来想想,虽然它不是正经属性值,但它确实是属性值,只不过不正经。那就用对待不正经的属性值的方法使用title=soup.find('div',id='title')area= soup.f...
原创
发布博客 2020.01.07 ·
132 阅读 ·
0 点赞 ·
0 评论

天猫商品详情爬取(以及评论信息)

今天试了下爬取天猫,没系统写,只是看了下每页各种数据怎么获取。其中商品列表页出现了点问题,记录一下。如果直接用从列表页拿到的链接请求的话,最后得出来的结果是没有价格信息的,其他到没注意最后各种试,发现要从页面中取出另一个js链接,这个链接返回的数据是有价格信息的import requestsurl='https://mdskip.taobao.com/core/initItem...
原创
发布博客 2020.01.05 ·
3701 阅读 ·
3 点赞 ·
8 评论

大众点评文字反爬破解

前面写了58同城的字体反爬,这几天又跟大众点评的文字反爬杠上了,多方查找,各种踩坑,好多文章是之前的解决办法,大众已经更改了反爬方式,好在磕磕绊绊终于是搞定了。详细记录一下首先,我们要搞得网页是这个点击进入大众网页这是网页代码跑出来是这样css字体反爬,确定了,接下来找字体文件多方尝试,找到了这个复制链接打开这些就是这个网页里用到的字体文件。先不管,全部下载下来,用FontC...
原创
发布博客 2020.01.04 ·
682 阅读 ·
2 点赞 ·
0 评论

python使用replace做多字符替换

如果需要替换的字符比较少,我们可以直接写出来,但是多的话,就要用for循环了,先看需要替换的字符比较少的时候,很简单代码1:text='我爱我家'#'我'替换为'他','家'替换为'空'data=text.replace('我','他').replace('家','')print(data)结果1:我们要对一个字符串中进行多个字符的替换,赋值变量不同以及缩进不同,得到的是不同的...
原创
发布博客 2020.01.03 ·
4339 阅读 ·
4 点赞 ·
3 评论

格式化headers,正则替换key:value到‘key’:‘value‘,

选择regex,将(.*?):(.*)替换为'$1':'$2',之后可以ctrl+alt+l,进行代码美化
原创
发布博客 2020.12.16 ·
409 阅读 ·
0 点赞 ·
0 评论

python爬虫进程池,多线程,异步,的使用

前几天写过一个简单的爬取小说的代码,刚好用来测试下使用多进程,多线程的效果首先不加进程和线程# -*- coding: utf-8 -*-# @Author : LMD# @FILE : 重生嫡女:指腹为婚.py# @Time : 2019/12/11 11:39# @Software : PyCharmimport requestsfrom bs4 impor...
原创
发布博客 2019.12.27 ·
611 阅读 ·
1 点赞 ·
0 评论

python两列表对应元素求和

一种方法是循环,但是有简便方法,用numpyimport numpy as nplist1=[1,2,3,4]list2=[1,2,3,4]a_array = np.array(list1)b_array = np.array(list2)c_arry=a_array+b_arrayprint(c_arry)列表中的数字是字符串形式的话import numpy as np...
原创
发布博客 2019.12.26 ·
5769 阅读 ·
2 点赞 ·
0 评论

python爬虫破解简单的字体反爬

这两天一直在看字体反爬方面的文章,现在难一点的还没摸清怎么搞,但是58的品牌公寓的字体反爬相对简单一些,已经自己做出来了,特此记下来,也可以帮刚在这方面入门的小伙伴更快熟悉起来。整体代码我会在文末发出来。话不多说,开始正题打开58公寓的页面,链接点这里页面是这样的打开调试可以看到源码是乱码的用代码跑出来之后,是这样的很明显的,出现了字体反爬。一般这种反爬,网页文件里是会有他们自...
原创
发布博客 2019.12.25 ·
697 阅读 ·
2 点赞 ·
0 评论

python打开xml文件并转为Beautiful格式

from xml.dom.minidom import parseimport xml.dom.minidom#打开xml文档dom = xml.dom.minidom.parse('newmy.xml')#转为字符串collection = dom.documentElement.toxml()print(type(collection))#转Beautifulsoup=Beau...
原创
发布博客 2019.12.25 ·
73 阅读 ·
0 点赞 ·
0 评论

python的全文检索库Whoosh使用示例

pip install whoosh首先,我有一个xiaoshuo文件夹,装了几部小说直接上代码:首先是创建索引的文件from whoosh.filedb.filestore import FileStoragefrom whoosh.fields import *from jieba.analyse import ChineseAnalyzerimport osanaly...
原创
发布博客 2019.12.14 ·
580 阅读 ·
1 点赞 ·
1 评论
加载更多