当当网数据爬取

Chloris_

于 2021-11-28 21:15:52 发布

阅读量1.2k

点赞数 1

文章标签： python big data 概率论

本文链接：https://blog.csdn.net/Chloris_/article/details/121598015

版权

本文通过Python爬虫技术，详细介绍了如何获取当当网的数据，并对其进行了初步的分析，涉及到网页抓取、数据清洗及概率论在数据分析中的应用。

摘要由CSDN通过智能技术生成

##尝试爬取当当网上的各种信息
import requests
from bs4 import BeautifulSoup
import time
import json

header = {"Referer":"http://search.dangdang.com/?key=python&%253Bact=input&%253Bpage_index=%7B%7D&_ddclickunion=P-295132-199857_64_0_ZGljdHNfZ29vZ2xl_1%7Cad_type&page_index=3",
               'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36 EastBrowser/2.1',
               "Accept-Language":"zh-CN,zh;q=0.9",
          "Accept-Ranges":"bytes",
          "Accept":"*/*"}


def get_links(url,list):
    wb_data = requests.get(url, headers=header)
    soup = BeautifulSoup(wb_data.text, 'lxml')
    links = soup.select('p.name > a')#将url链接都放在links里面去
    for link in links:
        href = link.get("href")#这里取得整个页面的链接
        get_inf

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Chloris_

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
当当网数据爬取

##尝试爬取当当网上的各种信息import requestsfrom bs4 import BeautifulSoupimport timeimport jsonheader = {"Referer":"http://search.dangdang.com/?key=python&%253Bact=input&%253Bpage_index=%7B%7D&_ddclickunion=P-295132-199857_64_0_ZGljdHNfZ29vZ2xl_1%7Cad.
复制链接

扫一扫