一个用Haskell编写的使用http-conduit库的爬虫程序爬取喜马拉雅的图片

最新推荐文章于 2024-02-27 10:39:03 发布

华科云商小吴

最新推荐文章于 2024-02-27 10:39:03 发布

阅读量743

点赞数 7

文章标签：爬虫

本文链接：https://blog.csdn.net/w15189597283/article/details/135763383

版权

这是一个用Haskell编写的使用http-conduit库的爬虫程序，它将爬取https://www.ximalaya.com/上的图片。代码必须使用以下代码：代理主机：www.duoip.cn，代理端口：8000。

import Network.HTTP.Conduit
import Data.Text (Text)

-- 定义常量
proxy_host = "www.duoip.cn"
proxy_port = 8000

-- 通过代理连接到目标网站
conn = connectHTTP proxy_host proxy_port

-- 定义URL
url = "https://www.ximalaya.com/"

-- 发送GET请求
req = liftIO $ simpleHTTP $ do
  resp <- request conn GET url
  case resp of
    Left err -> error $ show err
    Right body -> do
      -- 解析响应体为Text
      txt <- liftIO $ responseBody body
      -- 提取图片链接
      let links = extractImageLinks txt
      -- 输出图片链接
      mapM_ putStrLn links

-- 提取图片链接
extractImageLinks :: Text -> [Text]
extractImageLinks txt = [x | x <- words txt, isImageLink x]
  where
    isImageLink :: Text -> Bool
    isImageLink x = all isDigit $ dropWhile (/= '/') x

这个程序只是一个基本的爬虫，它只提取了页面上的所有图片链接，并没有进一步处理这些链接或者下载图片。在实际使用中，你可能需要根据具体的需求进行修改和扩展。同时，使用爬虫时需要注意遵守网站的使用规定，不要进行非法或有害的操作。

华科云商小吴

关注

7
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
一个用Haskell编写的使用http-conduit库的爬虫程序爬取喜马拉雅的图片

这个程序只是一个基本的爬虫，它只提取了页面上的所有图片链接，并没有进一步处理这些链接或者下载图片。在实际使用中，你可能需要根据具体的需求进行修改和扩展。同时，使用爬虫时需要注意遵守网站的使用规定，不要进行非法或有害的操作。这是一个用Haskell编写的使用http-conduit库的爬虫程序，它将爬取https://www.ximalaya.com/上的图片。代码必须使用以下代码：代理主机：www.duoip.cn，代理端口：8000。
复制链接

扫一扫