Springboot连接Python爬取网站信息

本文介绍如何利用Springboot应用程序连接Python的requests模块,实现爬取普通网页和Ajax加载的网站数据。首先讲解requests模块的基本用法,然后探讨如何处理动态加载的数据,最后展示在IDEL中的配置步骤。
摘要由CSDN通过智能技术生成

Python的requests模块的使用

解决pip更新问题。 You are using pip version 19.0.3, however version 19.1 is available.


当直接输入python -m pip install --upgrade pip更新还报错的时候,
输入命令:python -m pip install -U pip

Collecting pip
Downloading https://files.pythonhosted.org/packages/f9/fb/863012b13912709c13cf5cfdbfb304fa6c727659d6290438e1a88df9d848/pip-19.1-py2.py3-none-any.whl (1.4MB)
100% |████████████████████████████████| 1.4MB 21kB/s
Installing collected packages: pip
Found existing installation: pip 19.0.3
Uninstalling pip-19.0.3:
Successfully uninstalled pip-19.0.3
Successfully installed pip-19.1
	
//安装requests和lxml	
C:\Users\tt>pip install requests
C:\Users\tt>pip install lxml

Python爬取网站数据(普通网页)

import requests;

from lxml import etree;

def climb():
#请求url
    url = 'https://nj.5i5j.com/ershoufang/'
    r = requests.get(url)
    #return r.content
    return r.text #获取响应消息

def parse(htmlcex):
    htmlTree = etree.HTML(htmlctx)
    res = htmlTree.xpath("/html/body/div[1]/div/ul/li[1]/a/taxt()")
    print(res)
    
if __name__ == '__main__':
     print(climb())

/*
一、获取网页内容

分析: res = requests.get(“http://www.baidu.com“) res.text返回的是Unicode型的数据。 使用res.content返回的是bytes型的数据。 也就是说,如果你想取文本,可以通过res.text。 如果想取图片,文件,则可以通过res.content。
*/

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YGHDtxgX-1571333750929)(C:\Users\tt\AppData\Roaming\Typora\typora-user-images\1571312526195.png)]

打开所有后台进程:services.msc   比如:手动启动,maysql,windows系统里面的mysql在左侧框中手动点开黑界面。

Python爬取网站数据(Ajax网页)

//创建数据库
mysql> create database mydemo;
Query OK, 1 row affected (0.04 sec)

mysql> use mydemo
Database changed
mysql> create table userinfos(userid int primary key not null auto_increment,username varchar(20)not null, birthday date not null);
Query OK, 0 rows affected (0.18 sec)

mysql> insert into userinfos(username,birthday)values('zs','1999-8-9');
Query OK, 1 row affected (0.34 sec)

mysql> insert into userinfos(username,birthday)values('ls','1999-9-9');
Query OK, 1 row affected (0.00 sec)

mysql> insert into userinfos(username,birthday)values('ww','1998-9-9');
Query OK, 1 row affected (0.00 sec)

mysql>

打开IDEL配置

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3uToe2pJ-1571333750931)(C:\Users\tt\AppData\Roaming\Typora\typora-user-images\1571322894433.png)]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值