java调用python爬虫_Java调用Python语言爬虫

本文主要向大家介绍了Java调用Python语言爬虫,通过具体的内容向大家展示,希望对大家学习Python语言有所帮助。

用java调用python的爬虫程序,是一件很有意思的事情, 但解决方法大多不靠谱,作者花了两天的时间,动手实践,最终完全解决了问题java-pythonJava调用Python爬虫需要解决的问题:参数传递问题由python脚本通过, sys.argv[1]读取参数依赖包的问题用virtualenv构建虚拟环境,在虚拟环境安装所有相关依赖包, 用虚拟环境内的python解释器去执行python脚本, 可以完美解决依赖包问题java与python数据传递python脚本负责将爬取的内容保存为文件, 文件保存完成后, 由java程序读取文档内容import java.io.IOException;import java.io.File;public class BPython {    public static void main(String[] args) {        // 获取当前路径

File directory = new File("");//设定为当前文件夹

String dirPath = directory.getAbsolutePath();//获取绝对路径

Process proc;        try {            // python解释器路径

String pyPath = "/Users/lijianzhao/.virtualenvs/py3/bin/python3";            // python脚本文件路径

String pyFilePath = dirPath+ "/bdindex.py";

System.out.println(pyFilePath);            // 传给python的参数

String argv1 = "一人之下";

proc = Runtime.getRuntime().exec(pyPath + " "+ pyFilePath + " " +argv1);

proc.waitFor();

} catch (IOException e) {

e.printStackTrace();

} catch (InterruptedException e) {

e.printStackTrace();

}

}

}# coding=utf-8import requestsfrom lxml import etreeimport osimport sysdef getData(wd):

# 设置用户代理头

headers = {        # 设置用户代理头(为狼披上羊皮)

"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36",

}    # 构造目标网址

target_url = "https://www.baidu.com/s?wd="+str(wd)    # 获取响应

data = requests.get(target_url, headers = headers)    # xpath格式化

data_etree = etree.HTML(data.content)    # 提取数据列表

content_list = data_etree.xpath('//div[@id="content_left"]/div[contains(@class, "result c-container")]')    # 定义返回的字符串

result = ""

# 获取标题, 内容, 链接

for content in content_list:

result_title = "  "

bd_title = content.xpath('.//h3/a')        for bd_t in bd_title:

result_title += bd_t.xpath('string(.)')

result_content = ""

bd_content = content.xpath('.//div[@class="c-abstract"]')        for bd_c in bd_content:

result_content += bd_c.xpath('string(.)')        try:

result_link = ""+str(list(content.xpath('.//div[@class="f13"]/a[@class="c-showurl"]/@href'))[0])        except:

result_link = ": 空"

result_list = [result_title, "\n" , result_content , "\n", result_link]        for result_l in result_list:

result += str(result_l)    return result# 保存为文件def saveDataToFile(file_name, data):

# 建立文件夹

if os.path.exists("./data/"):        pass

else:

os.makedirs("./data/")    with open("./data/"+file_name+".txt", "wb+") as f:

f.write(data.encode())def main():

wd = ""

print(wd)    try:

wd = sys.argv[1]    except:        pass

if (len(wd) == 0):

wd = "Hello"

str_data = getData(wd)

saveDataToFile(wd, str_data)

print("end")if __name__ == '__main__':

main()小结python可能是最好用的爬虫语言, 以后遇到采集数据的需求时, 可以用java直接调用python的爬虫, 人生苦短, 我用python

以上就介绍了Python的相关知识,希望对Python有兴趣的朋友有所帮助。了解更多内容,请关注职坐标编程语言Python频道!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值