python
majackfeng
这个作者很懒,什么都没留下…
展开
-
python写一个爬虫(1)
寒假自己通过视频学习python3的一些基础性的内容,寒假就要结束了,在这里写一个小程序算是一个阶段性的成果了吧,在这里打算写一个小爬虫,爬取网络上一部小说的内容,(因为小说的字数较多,跑起来应该感觉很不错吧)在这些写一下要实现的功能。 1、通过给定小说的第一章的网址,来爬取该小说的数据,同时找到下一章的url进行下一章的爬取。 2、把小说的题目爬取到,打印到屏幕上 3、把小说每一章的题目和内原创 2016-02-24 17:26:15 · 389 阅读 · 0 评论 -
python写一个爬虫(2)
继续上一篇进行 3、得到文章的名称和下一章的url地址 由于已经得到了html的内容了,只需要对该内容进行解析就可以得到每一章的标题和下一章的url地址。 在这里使用正则表达式进行处理:def getTitle(DData): #得到文章的题目 zb=r'<div id="title">(.*?)</div>' #正则表达式 查找内容 titleL=re.findall(zb,原创 2016-02-25 16:21:58 · 296 阅读 · 0 评论 -
python写一个爬虫(3)
6、正文 终于到了正文的解析了: 比较简单:zb=r'<div id="content"><div id="adright"></div>(.*?)<div' mainBodyL=re.findall(zb,DData,re.S) mainBody=mainBodyL[0] mainBody=mainBody.replace('<br />','\n') main原创 2016-02-25 19:34:19 · 512 阅读 · 0 评论 -
python写一个爬虫(4)改进
1、改进一,把题目中的‘正文’,‘【】’等内容通过正则表达式删除。def getTitle(DData): #得到文章的题目 zb=r'<div id="title">(.*?)</div>' #正则表达式 查找内容 titleL=re.findall(zb,DData) temp=re.subn('\?','',titleL[0]) temp=re.subn('正文原创 2016-02-26 00:54:34 · 275 阅读 · 0 评论 -
LightGBM整理
LightGBM整理官网安装加载数据 官网 LightGBM 中文文档. LightGBM 官网. 安装 # 可能需要的安装包 pip install setuptools wheel numpy scipy scikit-learn -U # 安装 pip install lightgbm 加载数据 加载数据可以接受一下数据: libsvm/tsv/csv 文本文件格式。 Numpy ...原创 2019-04-06 22:03:46 · 966 阅读 · 0 评论