爬虫小实验

import requests, json, time, pymongo, random
from bs4 import  BeautifulSoup

# client = pymongo.MongoClient()
# ganji = client['ganji']
# url_list = ganji['url_list']
# item_info = ganji['item_info']

headers = {
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/601.4.4 (KHTML, like Gecko) Version/9.0.3 Safari/601.4.4',
    'Connection':'Keep-alive'

}

#ip.zdaye.com
proxy_list = [
    'http://120.41.0.29:8080',
    'http://58.20.132.23:8088',
    'http://121.140.126.250:3128'
]
proxy_ip = random.choice(proxy_list)
proxies = {'http': proxy_ip}

def get_item_info_from(url, data=None):
    wb_data = requests.get(url,headers=headers)
    if wb_data.status_code == 404:
        pass
    else:
        try:
            soup = BeautifulSoup(wb_data.text,"lxml")
            data = {
                'leibie': soup.select('#header > div.breadCrumb.f12 > span.crb_i > a')[1].text,
                'title': soup.title.text.strip(),
                'pub_data': soup.select('#index_show > ul.mtit_con_left.fl > li.time')[0].text,
                'price': soup.select('#content > div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.sumary > ul > li > div.su_con > span')[0].text.strip(),
                'area': list(map(lambda x: x.text,soup.select('#content > div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.sumary > ul > li > div.su_con > span > a')))
                #'chengse': soup.select(''),
                # 'url': url

            }

            print(data)
        except AttributeError:
            pass
        except IndexError:
            pass

get_item_info_from('http://bj.58.com/pingbandiannao/25842389823684x.shtml')
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
根据提供的引用内容,我无法直接回答关于Python爬虫实验的感悟。但是,我可以为您提供一些关于Python爬虫实验的一般信息和建议。 Python爬虫是一种用于从网页上获取数据的技术。通过编写Python脚本,可以自动化地访问网页、提取数据并进行处理和分析。以下是一些关于Python爬虫实验的感悟和建议: 1. 学习基础知识:在进行Python爬虫实验之前,建议先学习Python编程语言的基础知识,包括语法、数据类型、控制流等。此外,了解HTML、CSS和JavaScript等前端技术也会对爬虫实验有所帮助。 2. 选择合适的库:Python有许多用于爬虫的库,如BeautifulSoup、Scrapy和Requests等。根据实验需求选择合适的库进行学习和使用。 3. 网络请求和数据提取:在爬虫实验中,首先需要发送网络请求获取网页内容,然后使用合适的方法提取所需的数据。了解HTTP协议和常见的数据提取技术(如正则表达式和XPath)对实验非常有帮助。 4. 处理和存储数据:获取到的数据可能需要进行处理和清洗,以便后续分析。Python提供了许多数据处理和分析的库,如Pandas和NumPy。此外,您还可以将数据存储到数据库或文件中,以便后续使用。 5. 遵守法律和道德规范:在进行爬虫实验时,务必遵守相关的法律和道德规范。尊重网站的使用条款和隐私政策,避免对网站造成过大的负担或侵犯他人的权益。 希望以上信息对您有所帮助!如果您有任何进一步的问题,请随时提问。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值