自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

李孟笛的博客

记录下工作中的经验

  • 博客(62)
  • 收藏
  • 关注

原创 带你一路入门python爬虫

有不少人想跟我学简单的python爬虫,但是说实话,想会爬虫需要铺的摊子挺大的,不是一两句话就能讲完,今天刚好我哥也有爬虫需求,就干脆写个文章整体说一下。事先说明我的电脑是win10,64位2020-12-28更新1,安装python环境下载地址:https://www.python.org/downloads/windows/我下的3.7版本下载完成后,双击打开下载的python安装文件,然后将下方的两个选项框都打钩,再点击Customize installation进入下一步接下来就保

2020-12-28 17:39:01 53

原创 格式化headers,正则替换key:value到‘key’:‘value‘,

选择regex,将(.*?):(.*)替换为'$1':'$2',之后可以ctrl+alt+l,进行代码美化

2020-12-16 10:05:35 47

原创 将doc、docx文件转为pdf

from win32com import client as wcimport os# 将doc转pdfdef get_pdf(): # doc文档对象 w = wc.Dispatch('Word.Application') file_dir = 'D:/需要转换的文件夹路径' for root, dirs, files in os.walk(file_dir): # print(root) # 当前目录路径 # print(dirs)

2020-08-21 10:06:23 101

原创 css笔记

2020-07-29 10:23:22 32

原创 使用Beautifulsoup解析网页遇到的问题

今天遇到一个网页,按往常的老办法soup = BeautifulSoup(content, 'lxml')打印soup发现少了很多数据,刚开始还以为反爬,后来经过验证不是。、那么就是解析问题,我换成了soup = BeautifulSoup(content, 'xml')打印发现我想要的那块成功出现了,但是对比整个网页发现,其实还是有一些没有显示出来的,不管他,时间紧任务重,得过且过。后来进入详情页,发现又显示不全了。中间试了xpath等各种解析手段,还是显示不出来。最后还是继续使用bs4

2020-07-07 11:08:56 669

原创 时间转换

字符串类型转时间类型date = datetime.datetime.strptime(data1,'%Y-%m-%d')#获取当前时间 now=datetime.datetime.now()获取当日时间now = datetime.date.today() # 获取时间间隔 jg = now - end_date jg_days = jg.days...

2020-06-18 15:31:16 85

原创 关于python爬虫post请求

今天搞爬虫代码,明明能找到post请求网址,以及请求需要带的参数,但是写到代码里就是不行运行结果却出了问题后面找到了问题只需要将data数据json格式化一下结果完美收工

2020-06-05 18:06:42 101

原创 python 爬取doc文档

doc_href='https://resource.lzbank.com:18106/cportalFileServer/files//site/doc/pc/20201/12021/goods/20200521172408609syj8FsHJ.doc'conten=requests.get(doc_href).content with open('D:\爬取doc\doc\\1.doc','wb')as f: f.write(conten)另外,python没法直接处理doc

2020-05-26 14:42:06 427

原创 python代码中写sql语句的模糊查询

db = pymysql.connect(host="127.0.0.1", user="root", password="", db="demo", port=3306,charset='utf8')cur = db.cursor(cursor=pymysql.cursors.DictCursor)cur.execute('select * from demo_table where cp_name like "%%%s%%" and yh_name="云南红塔银行"' % cp_name)res

2020-05-22 11:04:30 571

原创 推荐一个在线格式化显示json网址

因为疫情,在家呆了很久,也失业了,emmmmm。。。。刚找到工作,公司老人给我推荐了一个json格式化显示网址https://json.cn复制想要显示的json文本内容放到位置1,位置2会自动显示json样式,方便数据的查看...

2020-04-15 15:37:44 167

原创 python使用Beautiful定位时,标签内的属性不是正经属性的定位方法

今天做爬虫定位标签时,遇到了这样一个问题我需要通过data-region_id这个属性值来跟他的上级区域对应。当我使用它定位时很明显,这个属性值不是正经属性值,不能像id,class这些用法一样。后来想想,虽然它不是正经属性值,但它确实是属性值,只不过不正经。那就用对待不正经的属性值的方法使用title=soup.find('div',id='title')area= soup.f...

2020-01-07 16:11:38 92

原创 天猫商品详情爬取(以及评论信息)

今天试了下爬取天猫,没系统写,只是看了下每页各种数据怎么获取。其中商品列表页出现了点问题,记录一下。如果直接用从列表页拿到的链接请求的话,最后得出来的结果是没有价格信息的,其他到没注意最后各种试,发现要从页面中取出另一个js链接,这个链接返回的数据是有价格信息的import requestsurl='https://mdskip.taobao.com/core/initItem...

2020-01-05 11:54:35 1665 7

原创 大众点评文字反爬破解

前面写了58同城的字体反爬,这几天又跟大众点评的文字反爬杠上了,多方查找,各种踩坑,好多文章是之前的解决办法,大众已经更改了反爬方式,好在磕磕绊绊终于是搞定了。详细记录一下首先,我们要搞得网页是这个点击进入大众网页这是网页代码跑出来是这样css字体反爬,确定了,接下来找字体文件多方尝试,找到了这个复制链接打开这些就是这个网页里用到的字体文件。先不管,全部下载下来,用FontC...

2020-01-04 17:47:52 238

原创 python使用replace做多字符替换

如果需要替换的字符比较少,我们可以直接写出来,但是多的话,就要用for循环了,先看需要替换的字符比较少的时候,很简单代码1:text='我爱我家'#'我'替换为'他','家'替换为'空'data=text.replace('我','他').replace('家','')print(data)结果1:我们要对一个字符串中进行多个字符的替换,赋值变量不同以及缩进不同,得到的是不同的...

2020-01-03 15:59:29 1388

原创 python爬虫进程池,多线程,异步,的使用

前几天写过一个简单的爬取小说的代码,刚好用来测试下使用多进程,多线程的效果首先不加进程和线程# -*- coding: utf-8 -*-# @Author : LMD# @FILE : 重生嫡女:指腹为婚.py# @Time : 2019/12/11 11:39# @Software : PyCharmimport requestsfrom bs4 impor...

2019-12-27 09:59:22 322

原创 python两列表对应元素求和

一种方法是循环,但是有简便方法,用numpyimport numpy as nplist1=[1,2,3,4]list2=[1,2,3,4]a_array = np.array(list1)b_array = np.array(list2)c_arry=a_array+b_arrayprint(c_arry)列表中的数字是字符串形式的话import numpy as np...

2019-12-26 14:49:49 1584

原创 python爬虫破解简单的字体反爬

这两天一直在看字体反爬方面的文章,现在难一点的还没摸清怎么搞,但是58的品牌公寓的字体反爬相对简单一些,已经自己做出来了,特此记下来,也可以帮刚在这方面入门的小伙伴更快熟悉起来。整体代码我会在文末发出来。话不多说,开始正题打开58公寓的页面,链接点这里页面是这样的打开调试可以看到源码是乱码的用代码跑出来之后,是这样的很明显的,出现了字体反爬。一般这种反爬,网页文件里是会有他们自...

2019-12-25 17:50:34 220

原创 python打开xml文件并转为Beautiful格式

from xml.dom.minidom import parseimport xml.dom.minidom#打开xml文档dom = xml.dom.minidom.parse('newmy.xml')#转为字符串collection = dom.documentElement.toxml()print(type(collection))#转Beautifulsoup=Beau...

2019-12-25 14:09:29 39

原创 python的全文检索库Whoosh使用示例

pip install whoosh首先,我有一个xiaoshuo文件夹,装了几部小说直接上代码:首先是创建索引的文件from whoosh.filedb.filestore import FileStoragefrom whoosh.fields import *from jieba.analyse import ChineseAnalyzerimport osanaly...

2019-12-14 15:54:00 128

原创 批量取文件

file_dir='G:/2017年更新2018年楼盘/' for root, dirs, files in os.walk(file_dir): # print(root) # 当前目录路径 # print(dirs) # 当前路径下所有子目录 # print(files) # 当前路径下所有非目录子文件 for x...

2019-12-14 15:35:21 24

原创 jieba(结巴)分词的使用

"""jieba添加自定义词或词库"""import jiebastr_text="李小福是创新办主任也是云计算方面的专家"str_jing2=jieba.cut(str_text,cut_all=False)print('add_word前:'+"/".join(str_jing2))#添加自定义词for i in ["创新办","云计算"]:#准备自定义词 jieba....

2019-12-14 15:13:18 36

原创 python爬虫重试模块

from retrying import retry@ retry(stop_max_attempt_number = 10) #让被装饰的函数反复执行10次,10次全部报错才会报错, 中间有一次正常就继续往下走def get_url(): pass...

2019-12-06 11:38:59 65

原创 使用anaconda新建各种python版本虚拟运行环境(附pycharm设置运行环境)笔记

下载地址:https://www.anaconda.com/download/安装包下载下来之后,点击安装,自己定义选择安装到哪里,之后一路next到这里,就按他默认的这样不动。因为第一个是加环境变量,选择的话后面会有不少麻烦,后面咱们手动添加。第二个意思是默认使用python3.7然后耐心等待,中间电脑可能有提示木马修改啥的,全部允许了最后装好后配置环境变量配置好后打开命令行输入c...

2019-12-06 10:27:18 264

原创 图片文字识别各种方法比较

网上有很多种图片文字识别方法,我这选了几种,做下比较代码在这:import tesserocrfrom PIL import Imageimport pytesseractdef a(): #这是一种办法,使用tesserocr image=Image.open('xxx.jpg') result=tesserocr.image_to_text(image) ...

2019-11-30 11:18:47 380

原创 python使用pyqt5自制成语接龙

前段时间看了下pyqt5,还写了个计算器玩玩,python使用pyqt5制作计算器,前面也写过一个成语接龙的小程序,自制成语接龙。就想着把他俩结合一下,做个有界面的成语接龙玩玩。代码如下:首先是chengyu.py,这个文件是界面文件(chengyu.ui)转出来的,看我上篇[python使用pyqt5制作计算器]这篇文章就知道怎么弄得了,不想知道怎么弄也没关系,直接创建一个chengyu.p...

2019-11-29 10:14:04 205

原创 python使用pyqt5制作计算器

这两天看pyqt5了,这个模块可以用来制作桌面软件,自己试着做了个计算器,这里记录一下。安装:pip install PyQt5安装完成继续安装PyQt5-toolspip install PyQt5-tools然后配置pycharm点击:File -》Settings-》Tools -》 External Tools -》点击“+”号我的配置过了,所以下面显示的有Qt Desi...

2019-11-27 18:39:38 762 2

原创 使用selenium运行chrom无头浏览器(不显示界面)

from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionschrome_options = Options()chrome_options.add_argument('--headless')driver = webdriver.Chrome(chrome_options = ch...

2019-11-20 14:30:30 1163

原创 爬取小说并在手机上看

昨天女友说她在手机APP软件上看的一部小说到某一章看不了了,是vip章节,我在电脑浏览器上搜了下发现网页上是有全本的,都能看。她说网页广告多,啥都有,一不小心就点进去了,很是麻烦。我想,爬下来吧。。。很简单的小爬虫,网站也没有啥反爬,加个头就好了。主要记录的是怎么能在手机上看这个坑。我刚开始是把每一章作为一个txt文件存储的但是发现这样虽然看起来很清楚,但是传到手机上之后,用看书软件打开,...

2019-11-13 11:56:23 281

原创 给女朋友推送睡前小故事

没错,还是我,我有女朋友上一篇写了推送天气的,但是未免太单调,来个推送睡前小故事这次用的是这个网站http://www.tom61.com/ertongwenxue/shuiqiangushi/index_2.html,这个网站需要用一丢丢爬虫知识首先,得到列表页所有故事的url,还有长度,也就是多少个故事def get_list(): headers = { ...

2019-11-08 11:48:12 215

原创 给女朋友推送天气

没错,我有女朋友使用的是和风天气的接口网址是https://dev.heweather.com/进网站之后点右上角注册注册好之后登陆到网站,进入‘控制台点击应用管理,创建一个应用然后新建应用,我创建的是web端的,其他创建方法详见https://dev.heweather.com/docs/getting-started/get-api-key。应用名称自己随便写个,test之类的...

2019-11-08 11:03:33 477

原创 识别图中文字

from PIL import Imageimport pytesseracttxt = pytesseract.image_to_string('pingjia.png', lang='chi_sim')print(txt)print('*'*50)#二值化然后转灰度图像def c(): image = Image.open('pingjia.png') imag...

2019-10-30 15:04:39 34

原创 用flask-restful搭建超级简单的http服务

今天来用flask做一个很简单的http服务首先安装要用到的模块pip install flaskpip install flask-restful这是我的脚本结构:废话不多说,直接上代码:一,服务端代码:# -*- coding:utf8 -*-from flask import Flask, jsonifyfrom flask_restful import reqpars...

2019-10-30 14:06:16 1180

原创 fasttext文本分类

前几天为了实现文本分类,看了不少博客文章之类的,就fasttext还算稍微能看懂,代码也最终能跑得起来,但是好多博客的代码都是更新之前的了,会报错,找坑填坑一路爬出来,总算跑通了,发出来做个记录吧。看过我博客的小伙伴应该知道我的这篇自制文本分类的骚操作还是跟它一样,先有数据,我就不多说了。接下来首先是先写一个文本分类处理的代码,待会儿再写一个文本分类预测的代码,我是分开运行的,你也可以自己整...

2019-10-27 10:42:55 164 2

原创 自制文本分类

这几天公司需求,要做文本分类,看了些文章,各种机器学习、神经网络,看不懂。自己结合结巴分词做了个简单的文本分类实现功能,总体来说还可以。运行结果:自己写的,咋方便咋来,反正各种半自动,没怎么注重过程,小伙伴看了之后可以自己改一下,让它更便捷。首先要有数据,我是爬的各种新闻网站,得到的各类数据。有了数据之后,就可以写这次的代码了首先是训练数据,通俗来说就是把文章处理成想要的格式。第...

2019-10-26 18:44:34 177

原创 求列表内元素总和

total = 0list1 = [2, 3, 5]for x in range(0, len(list1)): total = total + list1[x]print( total)

2019-10-26 11:19:32 1372

原创 scrapy_redis分布式

想做一下高大上的scrapy_redis爬虫程序,又觉得我这种水货做不来,后来各种查教程,试验,还算做出来一个像分布式的东西,不过还是记录一下,反正开几个终端模拟分布式,数据库里的数据确实没重复的,也能凑乎着用吧首先搭建scrapy,额。。反正就是先别管啥分布式,做一个scrapy爬虫出来再说。当你的scrapy爬虫能运行成功,数据库里能有数据的时候,改成分布式,settings.py文件最...

2019-10-10 17:30:57 34

原创 多进程

import timeimport randomfrom multiprocessing import Processdef piao(name): print('%s piao' %name) time.sleep(random.randrange(1,5)) print('%s piao end' %name)def aa(): print('a...

2019-10-04 09:51:56 45

原创 自制成语接龙

都是用的基础的语法,很好理解前提先爬取一些成语,我爬的搜出来的这些,代码在爬取一些成语爬出来的txt放在同级目录下面就好了import randomdef get_list(): with open("chengyu.txt", "r+", encoding="utf-8") as f: content = f.read() url_list ...

2019-09-29 15:25:08 333

原创 爬取一些成语

import requestsimport jsonimport refrom fake_useragent import UserAgentheaders= {'User-Agent':str(UserAgent().chrome)}for page in range(0,43381,30): url='https://sp0.baidu.com/8aQDcjqpAAV3otq...

2019-09-29 15:21:44 194

原创 随机生成useragent

from fake_useragent import UserAgentua = UserAgent()useragent=ua.chromeheaders={ 'User-Agent':useragent}

2019-09-29 10:30:47 792

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除