python从mongodb里取出数据进行可视化_Python爬虫之使用MongoDB存储数据

最新推荐文章于 2023-10-04 20:23:38 发布

weixin_39622710

最新推荐文章于 2023-10-04 20:23:38 发布

阅读量493

点赞数

文章标签： python从mongodb里取出数据进行可视化

1.MongoDB的安装

MongoDB是一种非关系型数据库

1460000015197065

选择你的系统对应的版本下载安装即可

2.MongoDB配置

a.在C盘或者D盘建一个文件夹如图mongodb

1460000015197066?w=530&h=72

b.安装成功后里面会有bin文件然后再文件夹里面新建一个data文件夹，data文件里面新建db文件夹

1460000015197067?w=695&h=206

db文件夹用于存储MongoDB数据

1460000015197068?w=627&h=163

c.在bin文件路径下打开命令行工具执行下面的命令

mongod --dbpath C:\mongdb\data\db

1460000015197069

注意：文件夹路径以自己所建的为准

d.此时在打开一个命令行在bin路径下执行下面的代码

mongo

1460000015197070?w=868&h=450

3.安装第三方库pymongo(连接MongoDB)

pip3 install pymongo

4.安装Mongodb可视化管理工具Robomongo

安装成功之后启动Robomongo，在空白处点击，然后选择Add命令，单击Save,最后点击Connect按钮连接到MongoDB数据库

5.案例代码

引入相应的模块

import requests

from lxml import etree

import re

import pymongo

import time

连接mongodb数据库

client = pymongo.MongoClient('localhost', 27017)

mydb = client['mydb']

musictop = mydb['musictop']

案例完整代码

import requests

from lxml import etree

import re

import pymongo

import time

client = pymongo.MongoClient('localhost', 27017)

mydb = client['mydb']

musictop = mydb['musictop']

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'

}

def get_url_music(url):

html = requests.get(url, headers=headers)

selector = etree.HTML(html.text)

music_hrefs = selector.xpath('//a[@class="nbg"]/@href')

for music_href in music_hrefs:

get_music_info(music_href)

def get_music_info(url):

html = requests.get(url, headers=headers)

selector = etree.HTML(html.text)

name = selector.xpath('//*[@id="wrapper"]/h1/span/text()')[0]

author = re.findall('表演者:.*?>(.*?)', html.text,re.S)[0]

styles = re.findall('流派: (.*?)
',html.text,re.S)

if len(styles) == 0:

style = '未知'

else:

style = styles[0].strip()

time = re.findall('发行时间: (.*?)
', html.text, re.S)[0].strip()

publishers = re.findall('出版者:.*?>(.*?)', html.text, re.S)

if len(publishers) == 0:

publishers = '未知'

else:

publishers = publishers[0].strip()

score = selector.xpath('//*[@id="interest_sectl"]/div/div[2]/strong/text()')[0]

print(name, author, style, time, publishers, score)

info = {

'name': name,

'author': author,

'style': style,

'time': time,

'publisher': publishers,

'score': score

}

musictop.insert_one(info)

if __name__ == '__main__':

urls = ['https://music.douban.com/top250?start={}'.format(str(i)) for i in range(0, 250, 25)]

for url in urls:

get_url_music(url)

time.sleep(2)

6.执行爬虫代码，然后到Robomongo刷新就会看到数据已经有啦

1460000015197071?w=1920&h=1080

7.本文只是入门级别，我分享出来希望和大家一起学习进步！我还写了Vue插件开发和抢红包的小游戏(欢迎Star)

weixin_39622710

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python从mongodb里取出数据进行可视化_Python爬虫之使用MongoDB存储数据

1.MongoDB的安装MongoDB是一种非关系型数据库选择你的系统对应的版本下载安装即可2.MongoDB配置a.在C盘或者D盘建一个文件夹如图mongodbb.安装成功后里面会有bin文件然后再文件夹里面新建一个data文件夹，data文件里面新建db文件夹db文件夹用于存储MongoDB数据c.在bin文件路径下打开命令行工具执行下面的命令mongod --dbpath C:\mongdb...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。