python从mongodb里取出数据进行可视化_Python爬虫之使用MongoDB存储数据

1.MongoDB的安装

MongoDB是一种非关系型数据库

1460000015197065

选择你的系统对应的版本下载安装即可

2.MongoDB配置

a.在C盘或者D盘建一个文件夹如图mongodb

1460000015197066?w=530&h=72

b.安装成功后里面会有bin文件然后再文件夹里面新建一个data文件夹,data文件里面新建db文件夹

1460000015197067?w=695&h=206

db文件夹用于存储MongoDB数据

1460000015197068?w=627&h=163

c.在bin文件路径下打开命令行工具执行下面的命令

mongod --dbpath C:\mongdb\data\db

1460000015197069

注意:文件夹路径以自己所建的为准

d.此时在打开一个命令行在bin路径下执行下面的代码

mongo

1460000015197070?w=868&h=450

3.安装第三方库pymongo(连接MongoDB)

pip3 install pymongo

4.安装Mongodb可视化管理工具Robomongo

安装成功之后启动Robomongo,在空白处点击,然后选择Add命令,单击Save,最后点击Connect按钮连接到MongoDB数据库

5.案例代码

引入相应的模块

import requests

from lxml import etree

import re

import pymongo

import time

连接mongodb数据库

client = pymongo.MongoClient('localhost', 27017)

mydb = client['mydb']

musictop = mydb['musictop']

案例完整代码

import requests

from lxml import etree

import re

import pymongo

import time

client = pymongo.MongoClient('localhost', 27017)

mydb = client['mydb']

musictop = mydb['musictop']

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'

}

def get_url_music(url):

html = requests.get(url, headers=headers)

selector = etree.HTML(html.text)

music_hrefs = selector.xpath('//a[@class="nbg"]/@href')

for music_href in music_hrefs:

get_music_info(music_href)

def get_music_info(url):

html = requests.get(url, headers=headers)

selector = etree.HTML(html.text)

name = selector.xpath('//*[@id="wrapper"]/h1/span/text()')[0]

author = re.findall('表演者:.*?>(.*?)', html.text,re.S)[0]

styles = re.findall('流派: (.*?)
',html.text,re.S)

if len(styles) == 0:

style = '未知'

else:

style = styles[0].strip()

time = re.findall('发行时间: (.*?)
', html.text, re.S)[0].strip()

publishers = re.findall('出版者:.*?>(.*?)', html.text, re.S)

if len(publishers) == 0:

publishers = '未知'

else:

publishers = publishers[0].strip()

score = selector.xpath('//*[@id="interest_sectl"]/div/div[2]/strong/text()')[0]

print(name, author, style, time, publishers, score)

info = {

'name': name,

'author': author,

'style': style,

'time': time,

'publisher': publishers,

'score': score

}

musictop.insert_one(info)

if __name__ == '__main__':

urls = ['https://music.douban.com/top250?start={}'.format(str(i)) for i in range(0, 250, 25)]

for url in urls:

get_url_music(url)

time.sleep(2)

6.执行爬虫代码,然后到Robomongo刷新就会看到数据已经有啦

1460000015197071?w=1920&h=1080

7.本文只是入门级别,我分享出来希望和大家一起学习进步! 我还写了Vue插件开发和抢红包的小游戏(欢迎Star)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python爬虫数据可视化技术路线一般可以分为以下几个步骤: 1. 数据采集:使用Python爬虫技术从互联网上抓取所需的数据。可以使用第三方库,例如Requests、BeautifulSoup、Selenium等来帮助实现数据的爬取和解析。 2. 数据清洗与处理:对采集到的数据进行清洗和处理,去除无效数据、处理缺失值、转换数据格式等。可以使用Python数据处理库,如Pandas和NumPy来进行数据清洗和处理。 3. 数据存储:将清洗处理后的数据存储到合适的数据结构,如CSV文件、数据库等。可以使用Python数据库库,如SQLite、MySQL、MongoDB等来进行数据存储。 4. 数据分析:使用Python数据分析库,如Pandas和NumPy来进行数据分析,包括统计分析、数据可视化等。可以进行数据聚合、数据筛选、数据分组和数据可视化等操作。 5. 数据可视化使用Python可视化库,如Matplotlib、Seaborn、Plotly等来对数据进行可视化展示。可以绘制各种图表,如折线图、柱状图、饼图、散点图、热力图等,以更直观地展示和传达数据分析结果。 总结起来,Python爬虫数据可视化技术路线主要包括数据采集、数据清洗与处理、数据存储数据分析和数据可视化等步骤。通过这个技术路线,可以帮助我们获取数据,并对数据进行清洗、分析和可视化,从而得到更深入的洞察和更好的决策支持。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Python爬虫可视化分析](https://blog.csdn.net/2201_75735270/article/details/130924603)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值