python-数据结构化与保存

1.结构化:

  • 单条新闻的详情字典:news
  • 一个列表页所有单条新闻汇总列表:newsls.append(news)
  • 所有列表页的所有新闻汇总列表:newstotal.extend(newsls)

2.转换成pandas的数据结构DataFrame

3.从DataFrame保存到excel

4.从DataFrame保存到sqlite3数据库

 1 import requests
 2 from bs4 import BeautifulSoup
 3 from datetime import datetime
 4 import re
 5 import pandas
 6 import sqlite3
 7 
 8 url = 'http://news.gzcc.cn/html/xiaoyuanxinwen/'
 9 res = requests.get(url)
10 res.encoding = 'utf-8'
11 soup = BeautifulSoup(res.text, 'html.parser')
12 
13 #给定单条新闻链接,返回点击次数
14 def getclick(url):
15     m=re.search(r'_(.*).html',url)
16     newsid=m.group(1)[5:]
17     clickurl='http://oa.gzcc.cn/api.php?op=count&id={}&modelid=80'.format(newsid)
18     resc=requests.get(clickurl).text
19   
20     #匹配任意位置的模式串,可以使用re.search()  #re.match()只匹配位于字符串开始位置的模式串;
21     r=re.search(r'hits(.*)',resc).group(1)
22     click=r.lstrip("').html('").rstrip("');")
23     return int(click)
24 
25 #print(getclick('http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1017/8338.html'))  #图1
26 
27 #给定单条新闻链接,返回新闻细节的字典
28 def getdetail(url):
29     resd=requests.get(url)
30     resd.encoding='utf-8'
31     soupd=BeautifulSoup(resd.text,'html.parser')
32     news={}
33     news['url']=url
34     news['title']=soupd.select('.show-title')[0].text
35     info=soupd.select(".show-info")[0].text
36     news['dt']=datetime.strptime(info.lstrip('发布时间:')[0:19],'%Y-%m-%d %H:%M:%S')##
37     news['source']=re.search('来源:(.*)点击',info).group(1).strip()
38     #news['content']=soupd.select('.show-content')[0].text.strip()
39     news['click']=getclick(url)
40     return(news)
41 #print(getdetail('http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1017/8338.html'))                           #图2
42 
43 #给定新闻列表页的链接,返回该页所有新闻的细节字典的列表
44 def onepage(pageurl):
45     res=requests.get(pageurl)
46     res.encoding='utf-8'
47     soup=BeautifulSoup(res.text,'html.parser')
48     newsls=[]
49     for news in soup.select('li'):
50         if len(news.select('.news-list-title'))>0:
51             newsls.append(getdetail(news.select('a')[0]['href']))
52     return (newsls)
53 #print(onepage('http://news.gzcc.cn/html/xiaoyuanxinwen/'))                                                 #图3
54 
55 newstotal=[]
56 gzccurl='http://news.gzcc.cn/html/xiaoyuanxinwen/'
57 newstotal.extend(onepage(gzccurl))
58 
59 res=requests.get(gzccurl)
60 res.encoding='utf-8'
61 soup=BeautifulSoup(res.text,'html.parser')
62 n=int(soup.select('.a1')[0].text.rstrip(''))
63 pages=n//10+1 #计算多少条新闻有多少页
64 
65 for i in range(2,3):
66     listurl='http://news.gzcc.cn/html/xiaoyuanxinwen/{}.html'.format(i)
67     newstotal.extend(onepage(listurl))#后面的每一个列表页(extend():列表1里接上列表2的内容)
68 #print(len(newstotal))   #20
69 
70 df = pandas.DataFrame(newstotal)#创建DataFrame对象
71 
72 #print(df.head()) #查看前几行的数据,默认前五行      #图4
73 #print(df['title'])                             #图5
74 #print(df[df.click>5000])#筛选
75 
76 #保存到Excel表                                    #图6
77 df.to_excel('gzccnews.xlsx')
78 
79 #保存到数据库                                      #图7
80 with sqlite3.connect('gzccnews_db.sqlite') as db:
81     df.to_sql('news_table',con = db)

图1:测试getclick(url)

print-1

图2:测试getdetail(url)

图3:测试onepage(pageurl)

图4:测试pandas.DataFrame(newstotal)表格数据是否创建

图5:DF数据筛选查找

图6:创建Excel表

 

图7:创建sqlite3数据库

 

 

反省:

1、忘记在每个段落方法写完后使用print()检查错误,导致要全篇检查贼累

2、拼写和小细节错误较多,程序思路没理顺。

转载于:https://www.cnblogs.com/maykok/p/7688524.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
结构数据转图像是指将具有一定结构和格式的数据转换成图像的过程。Python是一种强大的编程语言,可以用来进行结构数据转图像的操作。 在Python中,我们可以使用各种图像处理库来实现结构数据转图像的功能。其中,最常用的是Pillow库。Pillow库提供了一系列用于处理图像的函数和类,可以通过编写Python代码来转换结构数据为图像。 要实现结构数据转图像的功能,我们可以按照以下步骤进行操作: 1. 定义结构数据:首先,我们需要定义和准备待转换的结构数据。该数据可以是一维数组、二维表格、矩阵等具有一定结构的数据。 2. 创建空白图像:使用Pillow库中的函数,我们可以创建一个空白的图像对象。可以指定图像的宽度、高度、颜色等属性。 3. 遍历结构数据:使用循环结构,我们可以遍历待转换的结构数据。根据数据的值,可以决定在图像上绘制的内容和位置。 4. 绘制图像:根据遍历过程中获取的数据值,在图像上进行绘制操作。可以使用Pillow库提供的绘制函数,例如绘制点、线段、矩形、文本等。 5. 保存图像:绘制完成后,可以使用Pillow库提供的函数将图像保存到本地文件系统中。可以指定保存路径和格式等参数。 通过以上步骤,我们可以将结构数据转换成图像,并保存在本地文件系统中。这样,我们就可以将数据以图像的形式进行可视展示或进行其他相关操作。 总结:结构数据转图像是一项将具有一定结构和格式的数据转换成图像的任务。Python提供了许多图像处理库,例如Pillow库,可以用来实现结构数据转图像的功能。通过定义数据、创建空白图像、遍历数据、绘制图像和保存图像等步骤,我们可以将结构数据转换成图像,并进行必要的操作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值